点击下方卡片,关注“具身智能之心”公众号
具身智能的发展,始终围绕着一个朴素却深刻的目标:让机器人真正理解我们所处的物理世界,并用灵活的动作与世界交互。
早几年,VLA(视觉-语言-动作模型)的出现曾是行业的一大突破。它依托海量图文数据训练出的语义优势,让机器人第一次能听懂复杂指令、认出从未见过的物体,甚至完成简单的拾取、摆放动作,彻底改变了机器人 “只会执行固定程序” 的刻板印象。那时,很多人以为,沿着 VLA 的路线持续优化,就能一步步逼近通用机器人的理想。
但实践很快给出了答案:VLA 能精准识别 Taylor Swift 的脸,却解不开一根缠绕的鞋带;能区分杯子和盘子,却不知道怎么把液体从水壶倒进杯子而不洒出。它懂 “是什么”,却不懂 “世界怎么动”—— 物理因果性的缺失、对昂贵机器人标注数据的依赖、跨场景泛化的脆弱,渐渐成为这一范式难以逾越的天花板。
就在行业开始思考 “下一步该往哪走” 时,WAM(世界动作模型)带着视频预训练的核心思路悄然崛起。那些包含时间流动、物体碰撞、动作轨迹的视频数据,仿佛为机器人打开了一扇新的大门——从最初简单的 “用视频补物理短板”,到后来视频与动作的深度融合,再到如今一个模型集成多种能力的统一化形态,WAM 正在用自己的节奏,重构具身智能的技术逻辑。
下面我们着重聚焦几篇领域核心文献,慢慢梳理这场从 VLA 到 WAM 的技术迭代。没有复杂的公式堆砌,只聚焦 “为什么迭代”“迭代了什么”“迭代到了哪里”,看看具身智能是如何一步步跳出瓶颈,走向更贴近现实需求的未来。
更多内容也欢迎加入我们的具身智能之心知识星球,和近3000名成员一起交流~
阶段 1:VLA—— 曾是主流,却困在 “能认不会做” 的瓶颈里
刚开始了解具身智能时,VLA(视觉-语言-动作模型)是绕不开的存在,它算是早期的 “明星范式”,核心思路其实很简单:靠海量图文数据训练出的 VLM(视觉-语言模型)做底座,再用机器人动作数据微调,让模型能听懂指令、识别物体,进而输出动作,本质就是实现 “指令 + 视觉观测→动作” 的单一映射。
下面是两篇最具代表性的文献:
《RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control》(Google DeepMind, 2023)
这篇应该是 VLA 的 “开山标杆” 了,Google DeepMind 首次把 PaLM-E 这种大模型的语义优势,和机器人动作结合起来,核心是将 VLM 的图文表征与机器人关节角度动作做对齐微调,实现了 “指令→动作” 的端到端映射。最让我印象深的是,它能跨物体泛化,比如没见过的杯子,也能根据指令拿起来,真正实现了具身智能从 0 到 1 的突破。
但短板也很明显,看完实验细节才发现,它只懂 “什么是什么”,不懂 “世界怎么动”—— 比如让它叠衣服、用陌生工具,就彻底 “罢工” 了,核心原因是它没有建模物理因果关系,无法捕捉物体接触、变形的动态规律,这也为后来 WAM 的出现,埋下了伏笔。
《: A vision-language-action model with open-world generalization》(Physical Intelligence, 2025)
这篇是 VLA 规模化训练的代表,Anthropic 团队用了海量互联网图文 + 机器人轨迹数据,采用 “图文预训练 + 机器人数据微调” 的两阶段训练策略,按理说性能应该大幅提升,但实验数据却很真实:在没见过的多样化任务中,它的任务进度只有 27.4%,过拟合特别严重;而且换个机器人本体,就得重新采集海量数据训练,核心问题是它的动作表征和特定机器人强绑定,缺乏通用的物理先验。
这两篇文献看下来,让人直观感受是:VLA 解决了 “机器人能听懂、能认出” 的基础问题,但 “物理理解缺失” 这个天花板,它始终没能突破,也让行业开始思考:这条路,或许不是最优解。就像我们想让机器人做饭,它能认出锅碗瓢盆,却不知道怎么开火、怎么翻炒,这就是 VLA 的尴尬之处。
阶段 2:WAM 萌芽——用视频补短板,算是 “摸着石头过河”
既然 VLA 的问题出在 “不懂物理动态”,那怎么才能让模型学会 “世界怎么动”?研究者们想到了一个很自然的办法——用视频数据。毕竟视频里有时间连续性,有物体的运动轨迹、接触变形,这些都是静态图文给不了的物理知识,而 WAM(世界动作模型)的萌芽,就源于这个简单却关键的思路。
这一阶段的 WAM,更像是 “给 VLA 加了个视频底座”,还没实现视频与动作的深度融合,算是初步探索,但也让我看到了新的希望:
《UniPi: Learning Universal Policies via Text-Guided Video Generation》(MIT、谷歌等联合团队,2023)
这篇应该是 WAM 的 “开山之作”,MIT 和谷歌的联合团队,首次提出 “策略即视频” 的思路——核心是用文本引导的视频扩散模型,生成未来动作的像素级视频轨迹,再通过简单的逆动力学模型(IDM),从视频像素中反推出机器人的关节动作。
我觉得这个想法特别巧妙,它第一次证明了 “视频预训练能补全物理理解短板”,模型也能实现跨环境迁移,但缺点也很突出:视频和动作是完全解耦的,视频生成的计算量极大,且长时间序列下视频质量会退化,导致动作控制精度不足,细粒度控制更是谈不上,算是典型的 “补短板” 式探索,摸着石头过河。
《LAPA: Latent Action Pretraining from Videos》(Seonghyeon Ye, Joel Jang 等,KAIST、华盛顿大学、微软研究院、NVIDIA 等联合团队,2025,ICLR 会议论文)
这篇真的刷新了我对 “无标注数据利用” 的认知,它完全跳出了 “必须用机器人标注数据” 的思维定式,核心是一套三阶段的无监督预训练方案,逻辑闭环又巧妙:第一步先靠 VQ-VAE 训练一个动作量化模型,从连续视频帧中无监督学习离散的 “ latent action(隐式动作)”—— 相当于给物理世界的基础动作 “分词”,不用预设关节角度、末端执行器位置这些先验;第二步用预训练 VLM 做行为克隆,根据视频观测和任务描述预测这些隐式动作,全程不用任何真实机器人动作标签;第三步只需要用小规模带标签的机器人数据微调,就能把隐式动作映射成机器人能执行的实际动作。
它的突破点不止一个:一是泛化能力极强,哪怕预训练只用人类操作视频(比如日常物品互动的视频),和机器人本体差异巨大,微调后在 SIMPLER 仿真和真实机器人任务上,居然能超过用专业机器人数据集(Bridgev2)训练的 OpenVLA;二是效率惊人,预训练只用 272 个 H100 GPU 小时,是 OpenVLA的 30-40 倍,却在真实世界任务中平均成功率比 OpenVLA 高 6.22%;三是跨场景迁移稳健,不管是跨任务、跨环境还是跨机器人本体,隐式动作在语义空间里都能保持一致性——比如不同机械臂的 “移动”“旋转”,隐式表示高度重合,这意味着互联网上的海量视频都能成为机器人的 “物理知识教材”。
更意外的是,它还能当简易世界模型用:把预测出的隐式动作输入解码器,就能重建未来视频帧,相当于能 “想象” 动作带来的结果,为后续闭环控制打下了基础。这篇工作彻底证明,机器人学习不一定非要依赖昂贵的标注数据,互联网视频里的物理动态信息,只要用对方法,就能成为突破 VLA 瓶颈的关键。
这一阶段的 WAM,虽然还有很多不足,但已经明确了核心方向:视频预训练,就是解决 VLA 短板的关键。就像给不懂做饭的机器人,看了很多烹饪视频,它慢慢知道了开火、翻炒的基本逻辑,虽然还做不好,但已经迈出了重要一步。
阶段 3:WAM 成熟——视频与动作深度融合,终于 “能做好” 了
如果说萌芽阶段的 WAM 是 “能做”,那成熟阶段的 WAM,就是 “能做好”。研究者们不再满足于 “视频和动作各做各的”,而是开始探索怎么让两者深度融合,要么优化分开的方案、减少信息损失,要么直接端到端训练,让一套模型同时搞定视频预测和动作生成,这一阶段的技术成熟度,比萌芽阶段提升了一大截。
下面三篇不同方向的文献,刚好覆盖了这两种思路,分享给大家,每篇都加一点点易懂的技术细节:
《mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs》(mimic robotics、Microsoft Zurich、ETH Zurich 等,2025)
这篇是 “分开优化” 的代表,它没有像 UniPi 那样生成完整的视频,核心优化是让视频骨干模型(Cosmos-Predict2)沿扩散流轨迹停在中间噪声水平,既保留物理动态信息,又规避了全量视频生成的计算开销;同时用 “冻结视频骨干 + 轻量级动作解码器” 的两阶段训练,梯度不回传,让视频和动作的配合更流畅。
最让我惊讶的是它的实验数据:样本效率是 VLA 的 10 倍,在 SIMPLER-Bridge 数据集上的成功率,是 OpenVLA 的 3 倍多。这也印证了一个核心结论——视频预测质量,直接决定动作控制的性能,只要视频够准,动作就不会差。
《PAD: Prediction with Action: Visual Policy Learning via Joint Denoising Process》(UC Berkeley, 2024)
这篇是端到端训练的 “基础之作”,UC Berkeley 的团队提出了一个很关键的想法:视频预测和动作生成,可以共享同一套 DiT 骨干网络,核心是通过联合去噪动力学,从噪声中同时重建未来的视频帧和动作序列,实现两者的原生对齐。
这样做的好处很明显,视频和动作能精准对齐,不会出现 “视频里动作是向左,机器人却向右动” 的情况,也彻底解决了分开方案的信息损失问题。而且它还支持 “有动作标注的机器人数据” 和 “无动作标注的纯视频数据” 联合训练,为后来利用海量互联网视频,打下了架构基础。
《Vidar: Embodied Video Diffusion Model for Generalist Manipulation》(清华大学,2025)
这篇是落地性最强的,团队聚焦于双臂操作这种复杂场景,核心优化是用 Masked IDM 学习与动作相关的像素掩码,过滤无关像素干扰,优化了视频与动作的融合逻辑。最让我震撼的是它的样本效率:只用 20 分钟的人类示范数据,就在 50 个任务上达到了 65.8% 的成功率,而这个数据量,只有的 1/1200。
看完这三篇文献,我真切感受到:WAM 已经从 “实验室探索” 走进了 “工程落地”。它不仅解决了 VLA 的物理理解短板,还大幅提升了样本效率,让机器人能真正灵活地完成复杂任务,不再是 “只会认、不会做” 的 “花瓶”。
阶段 4:WAM 进阶——一个模型搞定四件事,离通用机器人更近了
成熟阶段的 WAM 已经很优秀了,但研究者们并没有停下脚步,而是朝着 “通用机器人” 的目标迈进——让一个模型,同时实现正向动力学(预测未来状态)、逆向动力学(从视频反推动作)、策略推理(输出动作)、视频生成四件事,彻底打破数据边界,让模型能从海量互联网纯视频中学习,实现多任务互促提升。
这一阶段的三篇文献,每一篇都让我眼前一亮,也让我看到了具身智能的未来:
《Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets》(华盛顿大学、丰田研究所等,2025)
这篇是统一化 WAM 的标杆,设计特别简洁却极具巧思:核心是让视频和动作的扩散时间步独立采样,不用复杂修改架构,通过简单的遮罩逻辑,一个模型就能灵活切换四种任务模式——想让它输出动作,就调策略推理模式;想让它预测未来,就调正向动力学模式。
最厉害的是它的 “视频白嫖” 策略,能把没有动作标注的纯视频,当成 “隐藏动作” 来训练,彻底打破了对机器人数据的依赖。看完这篇,我才明白:原来模型可以这么 “聪明”,不用专门标注,就能从互联网视频里学懂世界的规律。
《DreamZero: World Action Models are Zero-shot Policies》(NVIDIA GEAR 实验室,2026)
这篇算是目前 WAM 的 “集大成者”,NVIDIA 的团队用 14B 参数的视频扩散模型,做了端到端的统一训练,核心是采用自回归架构保持原生帧率,解决了双向扩散的视频-动作对齐问题,零样本泛化能力是顶级 VLA 的 2 倍以上。最让我佩服的是它的跨本体迁移效率:只用 30 分钟的 “玩耍数据”,就能从一款机器人,适配到另一款全新的机器人,而且还能保留零样本泛化能力。
更关键的是,它解决了统一化模型 “算力高、推理慢” 的痛点,通过异步执行、CFG 并行等六层优化栈,让 14B 模型在 2 块 GB200 上实现 7Hz 实时控制,真正具备了规模化落地的可能。
《Motus: A Unified Latent Action World Model》(清华 TSAIL 实验室,2025)
这篇是性能标杆,清华大学毕弘喆、谭恒楷等研究者领衔的作品,核心创新是 “用光流提取动作趋势”—— 通过 DPFlow 算法从 YouTube 烹饪视频、人类操作视频里,提取像素级的运动轨迹,再用卷积 VAE 压缩为本体无关的隐式动作,让模型能适配不同机器人。
它的实验数据特别惊艳:在 50 个任务的训练中,任务越多,成功率越高,最终达到 87.0%,比高出 45 个百分点;在真实机器人的咖啡研磨任务中,成功率更是达到 92%,而只有 8%。这也证明了,统一化模型学到的,是通用的世界知识,而不是单一任务的动作,这才是通用机器人的核心。
这一阶段的 WAM,已经彻底打破了 VLA 的所有瓶颈,让机器人从 “基础操作” 走向 “灵巧操作”,也让我看到了 “互联网视频驱动通用机器人” 的可能——未来,或许不用再花大量成本采集机器人数据,只要有足够的互联网视频,机器人就能学会各种技能。
回望 VLA 与 WAM 的路线之争
梳理从 VLA 到 WAM 的四大进化阶段,对两者的 “路线之争” 可形成更清晰的认知:这场争论从来不是 “非此即彼” 的零和博弈,而是技术迭代过程中 “补短板、强融合” 的必然选择。
VLA 作为早期主流路线,核心价值在于实现了具身智能 “从 0 到 1” 的突破——依托 VLM 的语义优势,让机器人听懂指令、识别物体,走出了 “机器人只会执行固定动作” 的困境。但它 “重语义、轻物理” 的先天缺陷,注定无法支撑机器人向 “灵巧操作、通用智能” 进阶,物理因果性缺失、数据依赖严重、泛化能力弱,这些都是其绕不开的瓶颈。
WAM 的崛起,本质上并非 “推翻 VLA”,而是 “补齐 VLA 的短板”—— 以视频预训练为核心,引入物理动态先验,从萌芽阶段的 “视频与动作解耦”,到成熟阶段的 “深度融合”,再到进阶阶段的 “多能力统一”,一步步解决 VLA 的痛点,同时保留了 VLA 的语义理解优势,让机器人既能 “懂是什么”,也能 “懂怎么动”。
当然,WAM 并非完美无缺,比如高端模型的部署成本仍较高,VAE 的信息瓶颈尚未完全突破,高动态场景的实时性还有提升空间,但这并不影响它成为具身智能的未来方向。反观 VLA,也未被彻底淘汰,其轻量化优势在低算力、基础操作场景中,依然具备不可替代的价值,未来两者将是 “互补共生” 的关系,而非对立。
这场路线之争,最终的赢家不是 VLA,也不是 WAM,而是具身智能本身——从 VLA 的 “语义驱动”,到 WAM 的 “语义 + 物理双驱动”,从 “依赖机器人数据” 到 “利用全量视频数据”,技术的每一步迭代,都在朝着 “让机器人真正懂世界、会动手” 的核心目标迈进。
END
推荐阅读 :