一句话介绍
教 AI “理解世界怎么运转”,比直接教它 “怎么行动” 更能提升行动力。千问团队训练了覆盖七个领域的语言世界模型,既能作为独立模拟器给 Agent 提供可控训练环境,又能作为 Agent 预热阶段直接提升多轮任务表现
- 论文标题:Qwen-AgentWorld: Language World Models for General Agents
- 论文地址:https://arxiv.org/abs/2606.24597
- 官方技术博客:https://qwen.ai/blog?id=qwen-agentworld
- 开源仓库:https://github.com/QwenLM/Qwen-AgentWorld
- 模型权重:huggingface、modelscope
一、动机
Agent 执行任务需要两个核心能力:策略(看到状态 → 选择动作)和世界模型(给定状态与动作 → 预测环境的下一状态)。而当前训练 Agent 的研究几乎全压在策略侧 —— 教模型调工具、写代码、操作浏览器,世界模型方向一直是空白
已有研究者从理论上严格证明了:任何能在足够多任务上泛化的 Agent,其内部必然隐含学到了一个世界模型。可见其不是锦上添花,而是通用 Agent 的必要条件。既然不可避免,不如显式把它训出来
要想训练好一个 agent 模型,理论上得让它从真实环境中成长起来,但这带来两个结构性挑战:
- 规模受限:跑终端任务得开容器,跑 OS 任务得启虚拟机,几千个环境并行的基础设施成本极高
- 不可控:真实环境遇到什么场景存在随机性,没法针对 Agent 弱点定制训练内容
传统的解决思路是用搭建模拟环境:写终端沙箱、搭搜索后端等。但问题是,不同团队面临的真实场景千奇百怪,模拟出来的环境也无法复用,每次都得从头手动搭建。Qwen-AgentWorld 的思路完全不同,它期望训一个模型来代替任何手工模拟器,这个模型不会实际执行代码,但对相关的状态转换规律了然于心,只需要以文本形式提供输入与环境描述,就能给出合理逼真的反馈信息
二、模型构建
2.1 数据格式
与 Cosmos、Genie那些做视频预测 “世界模型” 模型不同,Qwen-AgentWorld 主要关注各类文本和 GUI 形式的环境状态。比如敲一条终端命令后会发生什么,手机上点击一个按钮后界面怎么变,更准确地说,Qwen-AgentWorld 是一种语言世界模型(LWM)
GUI 领域用可访问性树表示界面状态,不需要处理图像
Qwen-AgentWorld 主要覆盖了七个 Agent 环境领域:
所有领域共享统一的环境轨迹格式:system_prompt + [(action, observation)] 序列。其中 system_prompt 需要包含:任务描述、动作空间、初始状态、示范和仿真指令,以下是一个终端环境系统提示案例
如上图所示,准确描述一个环境并不是一项简单的任务,需要大量的领域知识并且可能会迭代多次。作者也并非全靠手写,而是把它视作自动化研究任务,利用 AutoResearch 自动迭代,目标是最大化真实轨迹上的预测准确率
这种设计使得一个模型可以同时理解从终端命令到手机界面的所有交互。下面是两个代表性的交互示例,预测 Python 脚本的报错堆栈,以及预测安卓应用点击后的界面变化:
2.2 数据采集
为了让模型掌握各类系统的交互规律,自然需要准备大量数据样本。为此除了收集公开数据和业务积累数据以外,团队还专门搭建了一整套 Agent 基础设施:代码类的容器化沙箱、MCP 服务器集群、持久终端会话;GUI 类的安卓虚拟机、浏览器环境和桌面 OS,用于自动合成任务、让 Agent 执行、持续采集交互数据。最终得到超过 1000 万条交互轨迹,用于构建 CPT、SFT、RL 训练数据
把一次性的工程投入转化成可复用的模型资产:环境搭一遍、数据采一次,知识就固化进模型里
数据清洗方面,主要剔除回合数少于 2 的序列、声明了不存在工具的 MCP 和 SWE 轨迹、因环境故障而影响后续状态的 GUI 轨迹等;此外还对过程中存在重复的样本做了简化,比如跳过陷入的「异常输出-执行失败-错误」循环、GUI 操作前后环境无变化的样本(大概率是网络延迟或系统卡死引起)
2.3 三阶段训练
CPT(持续预训练):把环境状态转换规律注入模型。除了交互轨迹,还混入法律、医疗、金融、网络安全等专业语料,因为高保真模拟常涉及专业场景,比如合规检测返回法律术语、搜索引擎返回医学答案
SFT(监督微调):把 “预测下一个状态” 激活为显式推理模式,让模型在思维链里主动分析当前状态与预期输出
RL(强化学习):用混合奖励打磨质量。包含五个维度评分的 LLM 裁判,和做二元对错判断规则验证器。后者是为了避免奖励作弊 —— 模型偷偷在预测输出里塞 “操作成功,所有字段正确填充” 之类的自夸话术,很可能从 LLM 裁判处骗取高分
三、评估基准
作者还同步发布了 AgentWorldBench 评测基准,覆盖全部七个领域、2170 个样本,从格式、事实性、一致性、真实性和质量五个维度评分
当前主流闭源模型与 Qwen-AgentWorld 在此基准上的测试结果如下
Qwen-AgentWorld-397B 总分 58.7 位列第一,超过 GPT-5.4(58.3)和所有 Claude 模型
四、世界模型怎么用
4.1 作为独立模拟器
可以利用世界模型给 Agent 策略模型批量制造训练场景,Agent 在里面反复练习。这一用法主要有两个亮点
- 泛化到未知环境
用 Qwen-AgentWorld 模拟了 4000 个 OpenClaw 场景来训练 Agent。注意 OpenClaw 完全不在世界模型的训练数据里,但训练后 Agent 在真实评测上依然提升明显:
- 可控性超越真实环境
在搜索领域,用世界模型构建 1000 个完全虚构的平行世界 —— 每个世界有自己的虚构事实、虚构数据库、虚构搜索结果。然后在这些纯虚构世界里训练搜索 Agent
结果令人惊讶:在 WideSearch 真实搜索评测上,虚构世界训练的 Agent 得分 50.3%,而用真实搜索引擎训练的只有 45.6%
原因在于可控性。虚构世界的搜索结果被刻意设计成 “只给线索不给完整答案”,逼 Agent 反复搜索、交叉验证、一步步拼出答案。真实搜索引擎经常在摘要里直接给出答案,Agent 发现不用深挖就能得分,反而养成偷懒习惯。下图直观展示了两种训练方式在行为上的差异:
Sim RL 训练的 Agent 会更频繁地调用web_extractor提取完整页面内容,而 Real RL 训练的 Agent 发现摘要就够用,反而减少了深度搜索,这意味着我们完全可以利用世界模型创造出比真实环境还有价值的反馈信号!
4.2 融入 Agent 本身
还可以让同一个模型既当 Agent 又当世界模型。具体做法是用单轮的 “预测下一个环境状态” 任务给 Agent 做 RL 预热,把 “先预演再行动” 内化成 Agent 的能力
关键发现:预热任务只是单轮状态预测,没有工具调用也不涉及多轮交互,但预热后 Agent 在七个多轮、需要工具调用的评测上全部提升,其中有三个是完全没见过的域外数据:
分析 Agent 的思维轨迹发现,训练后 Agent 在行动前会主动预测环境反馈,而预测准确率达到了 78.3%:
跨领域的实验进一步揭示了底层机制。在训练世界模型时,如果只用终端领域的数据做 RL,终端模拟质量提升 14 分不意外,但没参与训练的搜索领域模拟也涨了近 12 分、软件工程涨 11.5 分:
这说明世界模型学到的不是终端的输出格式,而是通用的环境响应知识 —— 这正是 Agent 预热后能跨域迁移的根本原因