news 2026/4/15 14:14:46

DeepMind发布SIMA 2!打通「感知-推理-行动-反思」闭环

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DeepMind发布SIMA 2!打通「感知-推理-行动-反思」闭环

Deepmind推出的SIMA 2,让智能体能在虚拟环境(商业游戏)中,边聊天边进行复杂的多模态推理。作为具身通用智能的原型,SIMA 2已从静态数据集迈向无限程序化生成的训练场。

游戏领域的进步,一直是可被视为迈向通用人工智能的前奏,从棋类到多人合作的即时战略游戏,例如星际争霸。

但之前的智能体在玩游戏的时候,需要程序开发者手动编程,2024年,Deepmind推出了SIMA(Scalable Instructable Multiworld Agent),允许智能体虚拟环境中遵循自然语言编写的指令,例如你可以通过提示词。让游戏角色前往虚拟环境中的某地。

而近日新推出的SIMA 2,通过整合Gemini的多模态推理能力,让SIMA正从一个指令执行者演变为一个互动游戏伙伴。

SIMA 2不仅能够在虚拟世界中,遵循自然语言指令完成对应的操作,它现在还可以思考自己的目标,与用户对话,并随着时间的推移不断自我提升。

一个与你互动的游戏搭子

相比只能通过「查看」屏幕并使用虚拟键盘和鼠标,根据指令在固定游戏中执行对应操作的SIMA 1,SIMA 2的提升在于它不仅能够响应指令,还能够经由Gemini理解用户的目标,执行复杂推理以达成目标,并在游戏环境中熟练地进行目标导向的行为。这使得SIMA 2可以在它从未见过的游戏中完成任务,具体见下面视频对SIMA 1和SIMA 2的对比。

除了执行指令,SIMA 2还可以与用户多轮对话,一边推理自身行为及其所处环境,一边描述其意图执行的操作,并详细说明其完成目标的步骤。这使得与SIMA 2中智能体的互动,感觉更像是与一个能够理解当前任务的伙伴协作,而不是在下达命令。

图1:智能体-环境接口。智能体接收包含当前指令的提示。根据最近的帧进行条件建模,智能体输出内部推理、对话和动作,并在每一步指定要生成的模态类型。

SIMA的强大泛化能力,吹响迈向通用人工智能的号角

得益于Gemini模型本身的多模态特征,SIMA 2能够理解多模态的提示词,可以进行多语言的对话,甚至能理解表情包。

图2:SIMA 2 可以处理各种新颖且复杂的指令,包括分解指令以成功导航至特定房间。SIMA 2 还可以接受用户手绘的草图,以指定位置、路径或物体。

图3:通过使用Gemini,SIMA 2可以实现更复杂推理能力。例如上图的智能体成功利用复杂图表完成搭建营火的多步骤任务。整个过程中,智能体持续沟通其当前行为和下一步计划。

更关键的是,SIMA 2具有将所学概念迁移的能力。例如,在某一游戏中学到了如何「采矿」,而到了另一游戏中,就会用学到的技能来进行「采集」。

这样的迁移与泛化能力,是通用人工智能的基础。事实上,由于这种能力,SIMA 2在广泛的任务上的表现显著接近人类玩家。

图4:在所有训练游戏环境中中,SIMA 1、SIMA 2 和人类的任务完成成功率对比,SIMA 2相比SIMA 1平均成功率翻倍,在人类和自动评估时下均接近人类水平。

图5:SIMA 2在多个技能类别中显著优于 SIMA 1。在交互和物体管理等类别中,SIMA 2的表现几乎接近人类水平。然而,在资源收集和战斗等其他类别中,SIMA 2 仍有提升空间。

为了测试 SIMA 2 的泛化能力极限,Deepmind的研究者将其与 Genie 3 结合使用,Genie 3 可以根据单个图像或文本提示实时生成新的 3D 模拟世界。

当SIMA 2在这些新生成的世界中进行挑战时,发现它能够合理地定位自身,理解用户指令,并朝着目标采取有意义的行动,尽管它从未见过这些环境。它展现出了前所未有的适应能力。例如下面视频中,SIMA 2能够引导蝴蝶在Genie 3生成的全新环境中,导航找到红色的花朵。

可扩展的、多任务的自我提升

SIMA 2最令人兴奋的新功能之一是其自我提升的能力。

在训练过程中,SIMA 2中的智能体通过试错,以及将Gemini给的反馈作为指导,能够执行越来越复杂和新颖的任务。

例如,在最初从人类给的演示中学习之后,SIMA 2 可以通过自主游戏在新游戏中学习,无需额外示例,就能在之前未见过的世界中提升游戏技能。在后续训练中,SIMA 2 自己的经验数据可以用于训练下一个甚至更强大的智能体。

类似下围棋的Alpha-zero能够在完全不看人类棋谱的时候完成训练。研究者甚至能够利用 SIMA 2的自我提升能力Genie新创建的环境中进行训练,这将是向在多样化生成世界中训练通用智能体的重要一步。

图6:SIMA 2的自我提升循环始于Gemini为SIMA 2提供一个初始任务和对行为的奖励估计。这些信息随后被添加到自生成经验库中,该经验库用于后续版本的进一步训练。

这种迭代改进的良性循环为未来铺平了道路,届时智能体可以在极少的人类干预下学习和成长,成为具身智能中的开放性学习者。

图7:在固定任务集上,SIMA 2的性能稳步提升,逐渐接近,甚至在某些情况下超过了人类的得分。

由于可以在多种游戏环境中,执行复杂的推理和操作,并通过自主游戏持续学习,SIMA 2是迈向人工通用智能(AGI)迈进的重要一步,对机器人技术和通用AI智能体的未来发展具有重要意义。

SIMA 2的出现,说明了借助多样化的多世界数据和Gemini等大模型强大的推理能力,可以成功地将许多特有系统的功能统一到一个连贯的通用智能智能体中,这为机器人领域的应用提供了强有力的方向。

智能体在虚拟环境中所学到的技能,从导航和工具使用到协作任务执行,都会是未来物理世界中 AI 助手所需技能的基本构建模块。

不过,研究者也承认,SIMA 2中的智能体在处理超长时间跨度、复杂的任务时,仍然面临需要大量多步骤推理和目标验证等挑战。

此外,SIMA 2 对交互历史的记忆相对较短。智能体必须使用有限的上下文窗口来实现低延迟的交互。而且通过键盘和鼠标界面执行精确的低级操作,以及在复杂的3D场景中实现稳健的视觉理解,仍然是整个领域持续探索的开放性挑战。

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!​

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 14:14:43

双列召回 关注流召回 + 推荐流召回

在推荐系统中,召回模块负责从海量候选集中快速筛选出初步的几千到上万个item,为后续排序提供输入。由于推荐系统通常同时支持用户主动探索(如关注流)和被动接收(如推荐流),召回策略需要针对不同…

作者头像 李华
网站建设 2026/4/1 19:49:34

ioctl命令码构造与解析:项目应用详解

深入理解ioctl命令码:从原理到实战的完整指南在嵌入式Linux开发的世界里,ioctl(Input/Output Control)是连接用户程序与设备驱动之间的一座关键桥梁。它不像read和write那样处理常规数据流,而是专为那些“无法归类”的…

作者头像 李华
网站建设 2026/4/15 14:13:56

易语言Windows平台「AI大模型集成工具链+本地数据统一分析决策+低代码流程AI自动生成」三重核心深度融合系统

易语言Windows平台「AI大模型集成工具链本地数据统一分析决策低代码流程AI自动生成」三重核心深度融合系统 🤖⚙️📊 1.23.1 学习目标 🎯 作为《易语言开发从入门到精通》的未来前沿技术整合深化章,本章将整合前22章的全栈技术&am…

作者头像 李华
网站建设 2026/4/15 14:13:56

吐血推荐8个AI论文工具,本科生轻松搞定毕业论文!

吐血推荐8个AI论文工具,本科生轻松搞定毕业论文! 论文写作的“救星”来了,AI 工具让你轻松应对毕业挑战 对于大多数本科生来说,毕业论文不仅是一次学术能力的考验,更是一场时间与精力的拉锯战。从选题、查资料到撰写、…

作者头像 李华
网站建设 2026/4/13 12:05:03

haxm is not installed怎么解决:全面讲解兼容性问题

彻底解决“haxm is not installed”问题:从原理到实战的全链路排查指南 在Android开发中,模拟器是我们日常调试不可或缺的工具。然而,当你满怀期待地点击“Run”按钮时,却弹出一条令人头疼的提示:“ HAXM is not ins…

作者头像 李华
网站建设 2026/4/5 9:02:38

零基础掌握rs232串口通信原理图中的电平匹配方法

从零开始搞懂RS232串口通信中的电平转换设计你有没有遇到过这种情况:单片机明明已经写了UART发送代码,引脚也连上了,但PC端的串口助手就是收不到数据?或者更糟——刚一上电,芯片就发烫甚至烧了?如果你用的是…

作者头像 李华