合肥企业网站建设公司哪家好,餐饮公司网站模板下载,如何制作网页电子新年贺卡步骤,淘客网站开发培训在本文中#xff0c;我将讨论如何使用虚幻引擎、强化学习和免费的机器学习插件 MindMaker 在 AI 角色中生成涌现行为。 目的是感兴趣的读者可以使用它作为在他们自己的游戏项目或具体的 AI 角色中创建涌现行为的指南。 推荐#xff1a;使用 NSDT场景设计器 快速搭建 3D场景。…在本文中我将讨论如何使用虚幻引擎、强化学习和免费的机器学习插件 MindMaker 在 AI 角色中生成涌现行为。 目的是感兴趣的读者可以使用它作为在他们自己的游戏项目或具体的 AI 角色中创建涌现行为的指南。 推荐使用 NSDT场景设计器 快速搭建 3D场景。 1、涌现行为What Why
首先介绍一些关于涌现行为的入门知识。
涌现行为是指未预先编程但响应某些环境刺激而有机发展的行为。 涌现行为对于许多如果不是所有生命形式来说是常见的它是进化本身的一个功能。 这也是最近体现的人工代理的一个特征。
当采用涌现行为方法时并不是严格地为 AI 编写特定的动作而是让它们通过一些自适应算法“进化”例如遗传编程、强化学习或蒙特卡洛方法。 在这样的设置中——行为不是在一开始就被预测到的而是允许基于一系列在某种程度上依赖于机会的级联事件而“出现”。
为什么会选择使用涌现行为 主要原因之一是涌现行为方法可以创建行为更类似于碳基生命形式的 AI 代理更不可预测并显示出更大的战略行为多样性。
为娱乐或人类互动而设计的各种具体化 AI 代理可以从突发行为中受益从而显得不那么静态对用户更具吸引力。 《自然》杂志最近的一篇期刊文章表明机器人在响应时间和运动模式方面表现出更多的可变性被认为更人性化。
涌现行为还可以克服使用传统编程方法创建的其他形式的人工智能无法克服的障碍。 通过允许 AI 发现开发人员未预见到的解决方案代理可以探索比传统编程方法可能实现的更广泛的解决方案空间。 甚至有可能出现的行为方法可能会导致通用人工智能的产生这是一种可以与人类所拥有技能的多样性相媲美的人工智能。
但是并非所有情况下都适合使用涌现行为方法如果想要创建非常具体的行为例如精确和重复地模仿特定动物的行为涌现行为技术可能不是最佳选择。 涌现行为不太适合不需要变化的重复性高保真任务。 这就是为什么人类和其他有机生命形式可能难以完成高度重复的任务的原因之一我们天生就是多变的。
此外在尝试复制特定行为时可能很难重现导致该行为模式出现在现实世界中的相同偶然事件。 例如可能有多种解决方案是某种生物适应或行为进化来实现的其结果受偶然事件的调节。 因此并非所有紧急方法都必然会得出相同的解决方案。 一个例子是趋同进化多次重现眼睛的方式但不一定具有完全相同的形式。
涌现行为方法有利于创造多种行为其中一些行为可能与真实动物的行为相似但不太可能完全相同。 另一方面可以预期使用这些方法会产生大量有趣且独特的行为。 例如我们可以看看强化学习代理发现的穿越地形景观的各种运动方法。 创建涌现行为的第一步是决定要使哪种行为涌现以及该行为的目标是什么。 这在某种意义上是容易的部分。 下一部分稍微复杂一些需要概述一些关于涌现的理论。
2、不同类型的涌现行为
当谈到涌现的主题时开放式涌现和静态或“固定点”涌现之间存在区别。
在不动点涌现中一开始可能会出现多种行为但它们会逐渐收敛到一个单一的解决方案或策略并且出现的数量会随着时间的推移而减少。 本质上当使用行为来解决的问题存在静态全局解决方案时就会发生这种情况。 考虑井字游戏虽然采用强化学习或遗传算法等新兴技术的 AI 最初可能会在井字游戏中显示多种策略但它会很快收敛到单一的主导解决方案 游戏。 此时不会出现进一步的出现或策略。
当我谈到涌现行为时我相信人们在接近这个话题时通常会想到“开放式涌现”。 在这种涌现形式中没有固定的解决方案代理将不断地产生新的行为。 创建这种开放式涌现可能比创建固定点涌现更复杂并且必须考虑创建它所必需的结构。
值得庆幸的是最近在理解和开放式涌现编程方面取得了一些进展特别是 Joel Liebo 和其他人在自动课程方面所做的工作。 在一篇开创性的论文“Autocurricula and the Emergence of Innovation from Social Interaction”中作者列出了一些可以预期开放式涌现发生的条件。 下面的表格将有助于理解什么时候可以期待开放式涌现。
3、开放式涌现的秘诀
如果为行为或目标设定的解决方案非常大因此就所有意图和目的而言涌现的数量在所检查的时间段内不会出现上限。 这不是真正的开放式涌现因为可能存在全局解决方案如果给定足够的时间代理将发现并停止适应。
然而在许多情况下这可能会超出人类生命的时间跨度因此从观察者的角度来看涌现将是开放式的。 一个例子可能是国际象棋游戏其中全局解决方案被认为存在于井字游戏中但由于游戏的复杂性这尚未被发现并且不太可能在我们有生之年被发现。
创造开放式涌现的另一个秘诀是采用依赖于不断变化的环境的行为或目标状态。 想一想地球上的碳基生命形式——由于行星气候条件环境不断变化确保动物必须始终适应才能生存并且涌现水平没有上限。
开放式涌现的第三个秘诀是多代理场景其中涉及合作或竞争代理正在采用一些自适应学习策略。 在这种情况下代理人必须适应其同伴或竞争对手的策略这反过来又确保另一个人也必须适应从而形成持续适应的反馈循环一种进化军备竞赛。 虽然这可能导致出现但它也可能导致重复行为的循环无限循环直到环境中的某些元素将它们推离循环。 它不是真正的均衡因为行为或策略不是固定的但循环本身变成了一种均衡。 确保环境足够复杂和动态是避免这些周期性行为或策略的一种方法。
4、开放式涌现演示
在以下使用虚幻引擎创建的示例中我选择使用上面列出的第三个配方一个涉及来自两个虚拟物种的种群的多代理场景。 我们称其中一只为犀牛另一只为老虎。 两组探索他们的环境寻找“浆果”它们在虚幻引擎游戏环境中以大型圆形物体的形式出现。
使事情变得更复杂的是这些浆果斑块上随机分布着野鸟它们可以尖叫吓跑老虎和犀牛。 然而如果一只老虎或犀牛与另一只个体组队一起接近浆果它们就会吓得鸟儿安静下来。 他们现在可以获取浆果但他们必须将浆果彼此分开。
除了这种合作行为之外它们还有一种竞争行为它们可以发出吼叫声老虎或开始跺脚犀牛吓跑对立物种的代理人但也会消耗自己宝贵的能量。 在许多方面这种情况复制了自然界中的动物和人类公司可用的一些合作和竞争权衡。
竞争或合作是最古老的问题之一通过在虚拟代理中模拟这一点我们可以深入了解导致各种竞争或合作结果的条件。 使用这样的虚拟代理我们还可以产生许多与在动物王国甚至人类中可能观察到的相同的行为复杂性。 OpenAI 小组最近发表的一篇论文能够证明工具使用的涌现是玩捉迷藏游戏的 AI 角色之间多代理竞争的函数。
可以对任何自适应虚拟代理群体进行类似的操作这些虚拟代理将在彼此之间玩游戏其中收益取决于其他玩家的策略并且环境会受到他们行为的影响。 目标可以是任何东西只是代理必须有一些方法来接收有关其环境的反馈包括竞争对手采取的行动以及改变自己的行动作为回应的能力。 这个目标是由玩家还是程序员设定的在复杂性方面没有太大区别。 选择由玩家设置它可能会带来关于游戏叙事的有趣选项。 需要注意的重要一点——行为的目标是谁来选择并不重要重要的是这满足了上述竞争或合作的要求。
但是涌现究竟是如何“涌现”的呢 一种方法是使用强化学习或遗传算法。 在我们的例子中我们有一群虚拟代理它们使用随机变化的行为来查看目标状态是否受到影响。 代理然后优先考虑那些导致良好结果的行为。 在遗传算法中这是通过种群中出现的一种交叉函数来完成的其中随机出现的良好适应性得到保留相对不太有用的适应性被丢弃。 这是由适应度函数决定的。 这不需要看起来像有性繁殖或任何类似的东西因为现有的代理可以被它们适应的对应物无缝替换而用户不会看到任何正在发生的交叉。 在我们的示例中我们将使用强化学习这是我在另一系列文章中广泛介绍的一种算法技术。
与遗传算法类似强化学习依赖于大数法则即给定足够多的随机行为就会出现好的动作并可以在未来优先考虑。 最初智能体选择一系列随机动作但如果它们导致智能体获得奖励则该奖励的价值将归因于智能体为获得奖励而采取的动作因此更有可能在未来重复这些动作 . 当这个随机动作的过程被充分重复时那些与代理人获得奖励有因果关系的动作将与那些仅仅是偶然事件的动作区分开来。 这就是强化学习的核心所在它是一种因果算法可用于检测因果关系。
人们可以像这样想象这个过程。
对于这个项目我使用了免费的 MindMaker 插件和 Stable Baselines 强化学习算法套件。 借助 MindMaker我们可以使用 OpenAI Gym 格式轻松地在 Unreal Engine 游戏环境中部署各种 RL 算法。 这为在各种模拟环境中部署强化学习算法提供了一个通用结构。
5、总结与未来发展
上述简单设置导致不同数字物种的行为不太可能达到稳定平衡的情况。 鸟类在浆果斑块上的随机分布确保环境始终在变化这反过来又不断改变代理人合作或竞争的潜在利益。 智能体本身的活动也会影响有鸟和没有鸟的浆果斑块的比例——随着更多的智能体相互合作合作的动机就会减少因为没有鸟的浆果斑块的比例会增加。
这个想法是这些相互作用的力量创造了一个总是波动和不稳定的环境推动战略适应。 鉴于我们的代理与环境互动的方式很少——他们无法诱捕他们的竞争或使用环境中的物体隐藏浆果我们的范例不太可能产生像涌现工具使用这样有趣的东西。 然而它确实避免了固定均衡并创造了不断变化的合作和竞争策略组合。 这可以提供一组比通常出现在开放世界视频游戏中更有趣的行为。
因此我相信涌现行为技术例如此处概述的技术很可能会主导下一代视频游戏 AI从而创造出更加有趣和诱人的角色和行为库。 原文链接虚幻引擎涌现行为开发 — BimAnt