news 2026/7/1 15:13:17

从Next-Token到Next-State的世界模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从Next-Token到Next-State的世界模型

一、从语言到世界:AI的新跨越

Next-Token的辉煌与边界

过去几年,大语言模型凭借“预测下一个Token”的训练范式横扫千军。从ChatGPT到Claude,AI在文本生成、代码编写、逻辑推理等数字原生任务上展现出了惊人的能力。这套范式如此成功,以至于业界一度认为“只要规模足够大,智能就会涌现”。然而,当AI试图走出数字世界、踏入物理现实时,Next-Token的局限性开始暴露——它能写出完美的论文,却无法预测一个苹果从桌上掉落后的运动轨迹;它能解析复杂的法律条文,却搞不懂“把水杯推下桌沿”会引发什么后果。

物理世界需要“状态”,而非“Token”

根本原因在于,互联网文本是人类语言的编码,而非物理世界的编码。语言可以描述重力,但不包含重力本身;可以提及“惯性”,却不携带惯性的动量方程。要让AI真正理解并作用于物理世界,就必须让它学会预测“下一个物理状态”,而不仅仅是“下一个文字符号”。这正是世界模型的核心使命。

二、什么是“预测下一个状态”

状态的定义与预测逻辑

“世界状态”是对某一时刻真实世界所有相关属性的完整刻画。以自动驾驶为例,当前状态包括车辆位置、速度、周围障碍物距离、路面摩擦系数等。Next-State Prediction的任务是:基于当前状态和即将执行的动作,推演下一秒状态的变化。智源研究院院长王仲远用一个直观场景解释:一瓶未开封的矿泉水和一杯满装咖啡放在桌边,人类能凭直觉预判两者坠地后的不同后果——水瓶可能弹跳,但咖啡必然泼洒四溅。这种对物理因果的预判能力,正是人类世界模型的体现,而今天的AI模型还远未掌握。

视频生成不等于世界模型

值得警惕的是,当前许多标榜“世界模型”的研究实为视频生成模型。它们能生成逼真的未来帧画面,但画面中的物理规律可能是错误的——物体可能穿墙而过,液体可能违背重力向上流。真正的世界模型必须内嵌物理约束,能够回答“如果推这个箱子,它会滑多远、朝哪个方向”这种反事实推理问题,而不仅仅是生成一段好看的视频。

三、为什么世界模型是AGI的必经之路

认知闭环与规划能力

人类智能的核心在于“预测-行动-验证”的闭环。我们每做一个动作,大脑都会提前模拟其后果,据此调整策略。世界模型为AI提供了同样的能力——在真实执行之前先在内部“预演”一遍,评估风险与收益,选择最优路径。这种“想象力”让AI不再依赖海量试错,而是像人类一样通过少量尝试即可掌握新技能。

具身智能的刚需

对于机器人、自动驾驶、无人机等具身智能体而言,没有世界模型就等于“盲人开车”。它们必须理解物体恒存性、摩擦力、碰撞响应等基本物理常识,才能在未知环境中鲁棒运行。2026年智源大会形成的共识是:具身智能的大脑必须包含世界模型,否则VLA(视觉-语言-动作)模型只能拼凑感知与动作,无法实现真正的理解与泛化。

四、技术路线与产业竞速

三大技术路径

当前构建世界模型主要有三条技术路径:一是基于扩散模型,从噪声中逐步生成未来状态;二是基于Transformer的自回归预测,将状态序列视为多模态Token;三是基于物理引擎的可微模拟,将经典力学方程嵌入神经网络。三者各有优劣,行业尚未收敛于统一范式,但融合趋势已现。

资本与巨头集体押注

范式信号发出后,产业界迅速响应。2026年上半年,国内极佳视界完成15亿元融资,智平方B轮超10亿元,千寻智能一季度连融四轮总计45亿元。海外同样狂热——杨立昆创立的AMI Labs获10.3亿美元种子轮,李飞飞的World Labs完成10亿美元融资。摩根士丹利预测,到2035年世界模型赋能的产业规模可达10万亿美元。

五、挑战与未来展望

当前瓶颈:因果与复杂度

王仲远坦承,当前模型在因果推理和复杂动态系统预判上存在显著短板。视觉信息难以完整捕获接触力、材料属性等隐式物理量,360度环绕视觉也无法反推出摩擦系数。此外,训练世界模型需要海量高质量物理交互数据,而这类数据极度稀缺,仿真到现实的迁移(sim-to-real)仍面临巨大鸿沟。

从“能用”到“好用”的漫长之路

从Next-Token到Next-State,AI正站在从“符号生成”走向“现实理解”的历史拐点。这条路能否走通,取决于数据、算力、算法的协同突破。但方向已定——未来的AI必须拥有对物理世界的认知与预测能力,而不是仅仅做一个聪明的“文字游戏高手”。当世界模型真正成熟,AI将从屏幕中走出来,进入由重力、动量、材料构成的真实世界,开启全新的智能纪元。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/1 15:12:33

KeyStore Explorer:免费Java密钥库管理工具的完整指南

KeyStore Explorer:免费Java密钥库管理工具的完整指南 【免费下载链接】keystore-explorer KeyStore Explorer is a free GUI replacement for the Java command-line utilities keytool and jarsigner. 项目地址: https://gitcode.com/gh_mirrors/ke/keystore-ex…

作者头像 李华
网站建设 2026/7/1 15:11:46

绝区零一条龙:3步完成全自动游戏体验的终极指南

绝区零一条龙:3步完成全自动游戏体验的终极指南 【免费下载链接】ZenlessZoneZero-OneDragon 绝区零 一条龙 | 全自动 | 自动闪避 | 自动每日 | 自动空洞 | 支持手柄 项目地址: https://gitcode.com/gh_mirrors/ze/ZenlessZoneZero-OneDragon 你是否厌倦了每…

作者头像 李华
网站建设 2026/7/1 15:10:41

13DOF传感器与PIC24FJ256GA705的嵌入式导航系统设计

1. 13DOF传感器与PIC24FJ256GA705的硬件协同设计在嵌入式定位导航系统中,传感器与主控芯片的选型直接决定了系统性能上限。13DOF(13自由度)传感器模块通过整合三轴加速度计、三轴陀螺仪、三轴磁力计、气压计和温度传感器,实现了全…

作者头像 李华
网站建设 2026/7/1 15:07:45

为什么92%的国内AI项目在Gemini上踩坑却不敢声张?——ChatGPT 4o与Gemini 1.5 Pro在金融文档解析、代码生成、低资源语种支持中的3类隐性失效场景曝光

更多请点击: https://intelliparadigm.com 第一章:为什么92%的国内AI项目在Gemini上踩坑却不敢声张? Gemini API 在国内开发者社区中常被误当作“开箱即用”的通用AI接口,但其底层设计与国内主流开发范式存在三重隐性冲突&#x…

作者头像 李华
网站建设 2026/7/1 15:06:34

旅行社发展趋势是什么?张源知的业绩提升技巧有哪些?

本文将聚焦旅行社的发展趋势与市场环境变化。随着顾客需求的逐步演变、旅行社面临着调整业务的必要性。消费者越来越倾向于个性化的旅游体验服务。还有,数字化工具的普及也促使旅行社必须提升自身在线营销和客户服务水平。张源知在提升业绩上所采用的策略&#xff0…

作者头像 李华
网站建设 2026/7/1 15:05:43

摒弃盲目海投内卷 依托专业优势成应届生央国企求职最优路径

随着2026年春招全面开启,央国企持续扩招,成为高校毕业生高质量就业核心阵地。在“十五五”开局产业升级、硬科技与新能源赛道持续发力的政策背景下,央企优质岗位持续释放。大量应届生却陷入越努力越迷茫的求职困境:盲目海量投递、…

作者头像 李华