超越“更大“：大模型能力跃迁的四个纪元 —— 从模仿人类到体验世界-开发者社区

2022年底，ChatGPT横空出世，让全世界惊叹于机器能够像人一样聊天。三年多过去了，当DeepSeek-V4在数学竞赛中超越人类金牌得主，当龙虾类产品能替你完成长达数小时的多步骤任务，当具身机器人开始通过试错学习抓取积木，我们不禁要问：大模型持续进化的核心动力到底是什么？

答案或许不再是更大的模型或更多的数据，而是一种更根本的东西：训练信号的进化。模型的成长，本质上是它学习反馈的维度和质量在不断跃升。

本文将梳理大模型能力提升的四大核心里程碑，这不仅是技术编年史，更是从行为克隆走向因果理解的范式革命。

核心数据：互联网文本
训练信号：人类示范（监督学习）

范式：像一位博览群书的学徒，通过模仿人类作家的每一句话来学习写作。

核心突破：OpenAI通过海量互联网数据的监督微调（SFT），让模型学会了流畅的对话、遵循指令和基础推理。这是行为克隆的伟大胜利——模型学会了是什么，但不懂为什么。

局限：模型擅长接话，但面对复杂逻辑或需要精确规划的任务时，容易产生幻觉，因为它从未被训练过校验自己的思考过程。

核心数据：数学、代码等有标准答案的领域
训练信号：结果的对与错（自对弈强化学习）

范式：像一位疯狂刷题的奥赛选手，不在乎过程是否优雅，只在乎最终答案是否正确。它通过不断的试错和自我对弈来提升逻辑。

核心突破：OpenAI的o1系列和DeepSeek的R1/V4，证明了强化学习在结果可验证的领域拥有无限潜力。

技术上：GRPO等高效算法，让模型通过小组竞争就能学会复杂的推理和长程规划。

思想上：模型开始拥有系统二思维，即通过思维链进行显式的逻辑推演、自我纠错和回溯，而非仅凭直觉输出。

局限：模型在有标准答案的题目上是天才，但在开放、模糊、需要与真实环境交互的任务中，依然是个书呆子。

核心数据：用户与智能体协作完成任务产生的轨迹数据
训练信号：人类的过程反馈与任务最终的成败结果

范式：像一个拥有资深导师带领的实习生。导师（用户）不仅会告诉它结果错了，还会在过程中指着某一步说：这一步做得不对，换种方式试试。龙虾类产品是这个范式商业化落地的代表。

核心突破：训练信号从单一的结果扩展到了过程。模型通过人类反馈的轨迹数据，学习到的不再是孤立的对与错，而是一整套如何与用户协作、如何调用工具、如何根据反馈调整计划的策略。

意义：这为大模型成为真正可靠的智能体铺平了道路。它开始理解任务的中间状态，具备纠错和规划能力，并能与真实世界的软件（浏览器、代码终端、办公软件）进行可靠交互。

核心数据：具身智能体在物理世界中行动产生的多模态因果数据
训练信号：物理世界的因果规律（如摔倒了会疼、推一个杯子它会滑行）

范式：像一个蹒跚学步的婴儿，通过亲身与世界互动，建立对物理规律的直觉。这是最高维度的学习。

核心突破：模型不再是信息的旁观者，而是行动的参与者。它通过在线强化学习，在自己的行动和环境的真实反馈中，学习力、运动、碰撞等物理概念。这会催生真正的行动智能——模型会理解拿起这个动作需要施加多大的力，以及松手会导致什么后果。

远景：这是通往通用人工智能的必经之路。只有能与物理世界形成闭环的智能体，才能真正理解我们这个世界的运行规则，并完成复杂的现实世界任务，比如老人照护、灾难救援、科学研究。

正如威廉·吉布森所言：未来已来，只是分布不均。这四大纪元并非简单的替代关系，而是协同进化：

模仿纪元提供了良好的初始化。
推理纪元赋予了逻辑和规划能力。
过程纪元教会了模型如何与真实环境协作。
物理纪元则给予模型身体，让它真正体验世界。

当下的顶尖模型（如DeepSeek-V4、GPT-5），正处在推理纪元的巅峰，并大步迈向过程纪元。而物理纪元的曙光，已经在全球顶尖的机器人实验室中闪现。

大模型的进化史，本质上就是一部训练信号从稀疏走向稠密，从最终结果走向过程因果，从人类给予走向世界发现的历史。当模型不再仅仅是读万卷书，还能在虚拟和物理世界中行万里路时，真正的通用人工智能时代才会降临。

超越“更大“：大模型能力跃迁的四个纪元 —— 从模仿人类到体验世界