news 2026/3/27 0:21:40

这么哇塞的世界模型,竟然是开源的!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
这么哇塞的世界模型,竟然是开源的!

在机器人的眼睛(LingBot-Depth)和机器人的大脑(LingBot-VLA)之后,刚刚,蚂蚁灵波又开源了一个大的。

整整三天,一波接一波连续开源。

在机器人的眼睛(LingBot-Depth)和机器人的大脑(LingBot-VLA)之后,刚刚,蚂蚁灵波又开源了一个大的:

通用的世界模型——LingBot-World。

是可以支持在10分钟时长里,一直生成、一直交互的那种,来感受一下这个feel:

不难看出,视觉效果已经做到了与DeepMind推出的Genie 3不相上下,但时间维度上明显是更长。

而且LingBot-World生成的视频不只是能看,你也可以深度参与其中。

你可以通过键盘(WASD)和鼠标,实时控制视角的推进、旋转,就像在玩一款3A大作一样:

当然,Agent也能够在生成的世界中自主规划并执行动作。

与此同时,你也可以用自然语言的方式去实时改变生成世界里的一切。

例如我们“喂”给LingBot-World这样一张初始图:

只需输入“前面放个烟花”(0-10s)、“变成冰雪世界”(10-20s),LingBot-World就会从这张图开始按照你的要求生成下去:

不仅如此,LingBot-World一致性这块也是拿捏的非常到位,例如下面的科幻场景,不论是远景还是近景,那个光圈始终保持高度的一致性:

除了一致性之外,记忆力这块也是值得说道说道。

即便画面已经离开了视频中的猫咪一段时间,但当镜头转回来,LingBot-World还能保持持续的记忆,并推断猫咪在屏外的行为。

就仿佛一切都在自然演进、发生一样:

并且LingBot-World还严格遵循现实世界的物理规律,同样是这只猫咪,当它撞到沙发的时候就不会出现穿模的情况,会显得更加真实:

如此效果,也难怪刚刚发布,就已经在国内外的网上掀起了不小的热议:

真正的突破不在于视觉。而是它将记忆力、交互和持续性整合到了一起。

但最最最关键的是,不同于Genie 3的闭源,LingBot-World选择的是完全开源!

这也成了网友们直呼“Amazing”的重点:

对开源社区来说是个巨大的胜利。

如此开源对具身智能来说是个巨大进步。

那么LingBot-World到底是如何做到的呢?

相关论文也已新鲜出炉,我们这就来一探究竟。

LingBot-World是如何炼成的?

从刚才的效果展示和网友讨论中,我们不难发现世界模型的三大核心难点:

一致性交互性实时性

因为它不像AI视频生成那样,视觉上或许能达标,但最重要的是要按照严格物理规律持续地生成下去;从这个层面上来看,更像是一个世界模拟器

为了做到这一点,蚂蚁灵波团队先是在数据层面下了一番功夫。

LingBot-World先是构建了一个混合数据引擎。

一方面,他们收集了海量的真实世界视频(包括第一人称和第三人称视角);另一方面,利用虚幻引擎(Unreal Engine)合成数据,通过游戏引擎生成的画面,自带完美的相机位姿和物理碰撞信息,这是让模型学会因果关系的关键。

其次是分层标注策略,不同于传统笼统的视频描述,LingBot-World将描述拆解为三个层级:

  • 叙事描述(Narrative Caption):讲故事,描述视频的整体情节和环境变化。
  • 静态场景描述(Scene-Static Caption):只描述环境,刻意忽略动作。这让模型学会将背景与运动解耦。
  • 密集时序描述(Dense Temporal Caption):精确到秒的动作描述,比如“第5秒向左转,看到了一根柱子”。

数据层面之后,就是在模型层面上的创新。

LingBot-World并没有从零开始“硬Train”,而是采取了三阶段进化策略

阶段一是预训练,目标是先生成一个世界。

团队基于视频生成模型进行初始化。这一步不追求交互,只为了让模型拥有强大的通用视频生成能力,能够画出高保真的纹理和光影。

阶段二是中训练,目的是让模型掌握物理规律。

为此,团队引入了混合专家模型架构,这些专家会负责大到构建全局结构和粗略布局(比如山在哪里,路通向哪)的工作,小到填充纹理细节(比如水面的波纹,叶子的脉络)等。

在这个阶段,模型被注入了大量的交互数据和游戏逻辑,学会了“如果我按下W键,画面应该怎么变”。同时,通过渐进式课程学习,模型开始涌现出空间记忆能力,解决了长视频生成的灾难性遗忘问题。

阶段三是后训练,剑指实时性。

由于传统的双向扩散模型太慢,团队引入了因果注意力机制和少步蒸馏技术。

将推理过程从双向推演变成了自回归生成,在保证画质的前提下,将延迟压缩到了1秒以内(16fps生成速度),真正实现了Real-time Playable。

如此操作下来,在与Genie 3、Mirage 2等顶尖模型的对比过程中,性能上便取得了较为明显的优势。

尤其是在长时序一致性和记忆力方面,LingBot-World是做到了生成即记住

蚂蚁灵波的布局一下子清晰了

若是单点看LingBot-World这项技术的开源,或许你会觉得它可能只是一个好玩、好用的世界模拟器。

但如果结合前两天发布的LingBot-Depth和LingBot-VLA,你会发现,蚂蚁灵波正在下一盘很大的棋。

因为它不仅仅是三次开源动作这么简单,背后更是一套完整的具身智能基础设施

首先是机器人的眼睛(感知),即LingBot-Depth。

蚂蚁灵波的LingBot-Depth通过掩码深度建模,把传感器缺失的信号视为掩码,利用视觉上下文把深度图补全。

结果就是让机器人即使是面对反光、透明的物体,也能看清楚真实的世界。

其次是机器人的大脑(决策),即LingBot-VLA。

在20000小时真实世界数据加持下,机器人能够更精准地进行操作,并且更具备极强的泛化能力。

不仅在三个不同机器人平台上完成了100项任务,成功率碾压同类模型,训练吞吐量更是现有框架的1.5到2.8倍。

最后就是机器人的环境(模拟),也就是今天新鲜开源的LingBot-World。

因为真实世界训练机器人太贵、太慢,也存在一定的安全隐患;但在这里,它能生成无穷无尽的虚拟环境,并且符合物理规律。

不过有一说一,这三个动作并非是简单做加法,实际上是产生了1+1+1 > 3的化学反应:

LingBot-VLA可以在LingBot-World生成的虚拟环境中进行千万次推演(Sim-to-Real),以极低的成本学习物理规律。

LingBot-World生成的视频具有极强的一致性,可以直接转化为高质量的3D点云,反过来作为训练数据,让LingBot-Depth看得更准。

VLA在真实世界的反馈,又能优化World模型的物理准度,让模拟更逼真。

很明显,是围绕具身智能的一个完整闭环

由此,蚂蚁灵波下的这盘大棋也就非常清晰了——

把感知(LingBot-Depth)、决策(LingBot-VLA)、模拟(LingBot-World)这三大核心件全部开源,试图为整个行业提供一套可复用、标准化的产业基础设施。

但从更长远角度来看,或许蚂蚁灵波目前聚焦在具身智能还只是一个主线,因为如此复用性,同样也可以用于游戏、AIGC和自动驾驶等。

蚂蚁灵波的这盘棋,很有可能还将扩局。

One More Thing:

纵观蚂蚁灵波这三天的开源,一个很直接的体感就是真实。

这不,为了证明LingBot-World不只是个demo,团队还把实施部署的视频给放出来了:

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/16 3:12:44

智慧供餐冷链车辆物联网解决方案

某食品中央工厂主要面向学校、医院、企业等用户提供标准化食材,包括蔬菜、水产、肉禽、调味料等产品,通过加工后再冷链运输到目的地,从而确保各个食堂菜品的快速供应。现要求将冷链车辆接入工厂供应链管理平台中,实现冷链车辆的温…

作者头像 李华
网站建设 2026/3/26 22:21:04

paperzz 毕业论文:拯救本科毕业生的学术通关利器

Paperzz-AI官网免费论文查重复率AIGC检测/开题报告/文献综述/论文初稿 paperzz - 毕业论文-AIGC论文检测-AI智能降重-ai智能写作https://www.paperzz.cc/dissertationhttps://www.paperzz.cc/dissertation 当毕业季的钟声敲响,本科毕业生们一边忙着拍毕业照、参加散…

作者头像 李华
网站建设 2026/3/20 11:19:25

00:C++前言

1.1 C简述1、与c语言一样,c也是在贝尔实验室诞生的,Bjarne Stroustrup(本贾尼斯特劳斯特卢普)在20世纪80年代在这里开发了这种语言。2、c融合了3种不同的编程方式:* c语言代表的过程性语言. * c在c语言基础上添加的类代表的面向对象语言. * c模板支持的泛…

作者头像 李华
网站建设 2026/3/21 13:43:58

亲测好用TOP8AI论文写作软件:研究生开题报告神器大测评

亲测好用TOP8AI论文写作软件:研究生开题报告神器大测评 学术写作工具测评:为什么需要一份靠谱的AI论文写作榜单 随着人工智能技术的不断发展,越来越多的研究生和科研人员开始依赖AI写作工具来提升论文撰写效率。然而,面对市场上…

作者头像 李华
网站建设 2026/3/25 6:42:21

基于微信小程序的智慧共享停车位系统

收藏关注不迷路!! 🌟文末获取源码数据库🌟 感兴趣的可以先收藏起来,还有大家在毕设选题(免费咨询指导选题),项目以及论文编写等相关问题都可以给我留言咨询,希望帮助更多…

作者头像 李华
网站建设 2026/3/23 23:58:01

多门店理发店小程序系统的强大功能,单店/多店模式自由切换

温馨提示:文末有资源获取方式 寻找一款既能提升顾客体验,又能强化内部管理,还能作为业务增长工具的美容美发小程序?以下介绍的这款源码系统,以其媲美SaaS产品的完整功能与私有化部署的优势,为行业提供了专业…

作者头像 李华