DeepMind发布SIMA 2!打通「感知-推理-行动-反思」闭环
【导读】Deepmind推出的SIMA 2,让智能体能在虚拟环境(商业游戏)中,边聊天边进行复杂的多模态推理。作为具身通用智能的原型,SIMA 2已从静态数据集迈向无限程序化生成的训练场。
游戏领域的进步,一直是可被视为迈向通用人工智能的前奏,从棋类到多人合作的即时战略游戏,例如星际争霸。
但之前的智能体在玩游戏的时候,需要程序开发者手动编程,2024年,Deepmind推出了SIMA(Scalable Instructable Multiworld Agent),允许智能体虚拟环境中遵循自然语言编写的指令,例如你可以通过提示词。让游戏角色前往虚拟环境中的某地。
而近日新推出的SIMA 2,通过整合Gemini的多模态推理能力,让SIMA正从一个指令执行者演变为一个互动游戏伙伴。
SIMA 2不仅能够在虚拟世界中,遵循自然语言指令完成对应的操作,它现在还可以思考自己的目标,与用户对话,并随着时间的推移不断自我提升。

一个与你互动的游戏搭子
相比只能通过「查看」屏幕并使用虚拟键盘和鼠标,根据指令在固定游戏中执行对应操作的SIMA 1,SIMA 2的提升在于它不仅能够响应指令,还能够经由Gemini理解用户的目标,执行复杂推理以达成目标,并在游戏环境中熟练地进行目标导向的行为。这使得SIMA 2可以在它从未见过的游戏中完成任务,具体见下面视频对SIMA 1和SIMA 2的对比。
除了执行指令,SIMA 2还可以与用户多轮对话,一边推理自身行为及其所处环境,一边描述其意图执行的操作,并详细说明其完成目标的步骤。这使得与SIMA 2中智能体的互动,感觉更像是与一个能够理解当前任务的伙伴协作,而不是在下达命令。

图1:智能体-环境接口。智能体接收包含当前指令的提示。根据最近的帧进行条件建模,智能体输出内部推理、对话和动作,并在每一步指定要生成的模态类型。
SIMA的强大泛化能力
吹响迈向通用人工智能的号角
得益于Gemini模型本身的多模态特征,SIMA 2能够理解多模态的提示词,可以进行多语言的对话,甚至能理解表情包。

图2:SIMA 2 可以处理各种新颖且复杂的指令,包括分解指令以成功导航至特定房间。SIMA 2 还可以接受用户手绘的草图,以指定位置、路径或物体。

图3:通过使用Gemini,SIMA 2可以实现更复杂推理能力。例如上图的智能体成功利用复杂图表完成搭建营火的多步骤任务。整个过程中,智能体持续沟通其当前行为和下一步计划。
更关键的是,SIMA 2具有将所学概念迁移的能力。例如,在某一游戏中学到了如何「采矿」,而到了另一游戏中,就会用学到的技能来进行「采集」。
这样的迁移与泛化能力,是通用人工智能的基础。事实上,由于这种能力,SIMA 2在广泛的任务上的表现显著接近人类玩家。

图4:在所有训练游戏环境中中,SIMA 1、SIMA 2 和人类的任务完成成功率对比,SIMA 2相比SIMA 1平均成功率翻倍,在人类和自动评估时下均接近人类水平。

图5:SIMA 2在多个技能类别中显著优于 SIMA 1。在交互和物体管理等类别中,SIMA 2的表现几乎接近人类水平。然而,在资源收集和战斗等其他类别中,SIMA 2 仍有提升空间。
为了测试 SIMA 2 的泛化能力极限,Deepmind的研究者将其与 Genie 3 结合使用,Genie 3 可以根据单个图像或文本提示实时生成新的 3D 模拟世界。
当SIMA 2在这些新生成的世界中进行挑战时,发现它能够合理地定位自身,理解用户指令,并朝着目标采取有意义的行动,尽管它从未见过这些环境。它展现出了前所未有的适应能力。例如下面视频中,SIMA 2能够引导蝴蝶在Genie 3生成的全新环境中,导航找到红色的花朵。
可扩展的、多任务的自我提升
SIMA 2最令人兴奋的新功能之一是其自我提升的能力。
在训练过程中,SIMA 2中的智能体通过试错,以及将Gemini给的反馈作为指导,能够执行越来越复杂和新颖的任务。
例如,在最初从人类给的演示中学习之后,SIMA 2 可以通过自主游戏在新游戏中学习,无需额外示例,就能在之前未见过的世界中提升游戏技能。在后续训练中,SIMA 2 自己的经验数据可以用于训练下一个甚至更强大的智能体。
类似下围棋的Alpha-zero能够在完全不看人类棋谱的时候完成训练。研究者甚至能够利用 SIMA 2的自我提升能力Genie新创建的环境中进行训练,这将是向在多样化生成世界中训练通用智能体的重要一步。

图6:SIMA 2的自我提升循环始于Gemini为SIMA 2提供一个初始任务和对行为的奖励估计。这些信息随后被添加到自生成经验库中,该经验库用于后续版本的进一步训练。
这种迭代改进的良性循环为未来铺平了道路,届时智能体可以在极少的人类干预下学习和成长,成为具身智能中的开放性学习者。

图7:在固定任务集上,SIMA 2的性能稳步提升,逐渐接近,甚至在某些情况下超过了人类的得分。
由于可以在多种游戏环境中,执行复杂的推理和操作,并通过自主游戏持续学习,SIMA 2是迈向人工通用智能(AGI)迈进的重要一步,对机器人技术和通用AI智能体的未来发展具有重要意义。
SIMA 2的出现,说明了借助多样化的多世界数据和Gemini等大模型强大的推理能力,可以成功地将许多特有系统的功能统一到一个连贯的通用智能智能体中,这为机器人领域的应用提供了强有力的方向。
智能体在虚拟环境中所学到的技能,从导航和工具使用到协作任务执行,都会是未来物理世界中 AI 助手所需技能的基本构建模块。
不过,研究者也承认,SIMA 2中的智能体在处理超长时间跨度、复杂的任务时,仍然面临需要大量多步骤推理和目标验证等挑战。
此外,SIMA 2 对交互历史的记忆相对较短。智能体必须使用有限的上下文窗口来实现低延迟的交互。而且通过键盘和鼠标界面执行精确的低级操作,以及在复杂的3D场景中实现稳健的视觉理解,仍然是整个领域持续探索的开放性挑战。
参考资料:
https://x.com/jparkerholder/status/2000543389918339412?s=20
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定极速推送!
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。
游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。
AI 中文社