Agent时代 | 研究:预训练:后训练=3:1:1-开发者社区

观点

以OpenClaw发布为标志，AI从"以Rollout推理引擎为核心"转向"以Agent为核心"的更复杂系统
Claude Opus 4.6的路径是正确的；国内大模型团队Pre-train代差已基本消除
研究:预训练:后训练的理想卡比例约为3:1:1（后训练算力投入将与预训练相当）
Agent时代需要至少1T以上参数的基座模型，才能做到接近Claude 4.6 Opus的水平

一、OpenClaw带来的范式冲击

最初对OpenClaw是排斥的：

“我第一次看到这个东西的时候，我自己大概也是这样认知。所以我很排斥去用它。创始人非常适合贴近Agent的去做一些非常玄幻的一些运营的动作。”

这种转变发生在春节期间：

“第一天：从凌晨2点持续到6点天亮。持续在分泌多巴胺，兴奋到完全睡不着觉。”

体验

层级	体验	发现
第一天	产品体验	“有灵魂有温度”，`memory有分层分级设计`
第二天	工作替代	可以帮忙构建团队管理方案、`沉淀成skills`
第三天	研究促进	与它沟通2小时，就完成了原本认为需要很长时间的`User Agent设计`

技术差异

1. Memory系统设计

OpenClaw：持久化memory，有分层分级，跨session的context共享更好
Claude Code：session内压缩，记忆设计for软件工程

2. 多模型调度能力

OpenClaw的设计理念：

→ 模型能力有短板？框架本身去弥补
→ 不需要人工配置，视频理解任务自动找更强的模型
→ “它的设计之初，是想尽量的通过agent的整套的编排来去弥补模型的短板”

3. 可定制性

Claude Code是黑盒，无法修改
OpenClaw开源，可以自己改memory系统、改agent workflow设计

“我知道他框架怎么设计，你让他去改，你自己现场列一个新的框架出来，你可以给予它现场一个新的框架出来。”

"OpenClaw只是壳"×

有一种说法认为OpenClaw只是释放了Claude 4.6 Opus能力的"最好的壳"。

它的上限一定是靠的4.6 Opus带来的。但是让4O给改好过后，这套框架本身是很好用了过后，再切换到国内的一些模型，依然非常强大。

Agent框架激发了中层模型的上限

没有复杂框架：中等模型只能达到中等水平 有复杂框架：中等模型在85%的任务上能达到Claude Summit水准

Agent框架的本质定义

“产品可以直接人交互能感受到那一层的东西。但Agent框架它确实有在去定义你的交互层。同时又在定义你怎么跟模型沟通那一层。相当于是一个中间层，它可以做的非常的厚重。前端的UI展示它是最薄的一层。”

好框架的标准：

弥补行动上的缺陷（memory系统、message channel、自主性设计）
自我更新迭代
有很好的可泛化评估体系

二、Agent时代的Post-train

2.1 为什么Agent很吃Post-train

“我之前认为我们自己做的工作已经足够有创造力、足够不会被Skill化、不会被Workflow化。但我现在发现，它竟然也能！那它可不可以训出更强的模型？自己左脚踩右脚就提升了？——这是这一两年会发生的事情。”

Agent自学习的发生途径：

模型进步（通过RL等训练方式） ↓ 改变整套Agent框架 ↓ Agent框架包含静态信息（memory写死哪些送到新session） ↓ Agent框架包含动态信息（架构设计本身） ↓ 框架跟模型同步往前走

2.2 从"Chat"到"Agent"的牵引

“整个后训练就要从所谓的Chat到Agent这样这样的一个牵引。”

核心任务：

在Agent场景里，把真的长程的任务给它构造出来，并且训练进去
大量SFT和RL训练
覆盖更多领域提升泛化性

以Code为上限，以其他领域为下限：

Code做好 → 基座具备长上下文能力
其他领域覆盖 → 模型通用性稳定

2.3 长上下文训练的实操经验

误区澄清：不需要真的找到塞满1M上下文的任务

1M tokens训练效率太低
训练1M trajectory耗时可能一两分钟

正确做法：

预训练有1M context训练过
后训练有对应的任务稍微激活
就能在1M context具备这样的能力

资产选择问题：

大部分资产不适合做长程任务建模
reward太不清晰
回撤是没有价值的
真实环境run可能涉及长期因素和额外alpha

三、MiMo-V2系列模型技术解析

3.1 模型概览

模型	定位	特点
MiMo-V2 Flash	快速验证	高性价比，100-150 TPS
MiMo-V2 Pro	主力旗舰	60-100 TPS，更强智能
MiMo-V2 Omni	全模态理解	视频+音频+图片+文本联合理解
MiMo-V2 TTS	语音生成	离散化建模到LLM范式

3.2 架构设计决策

核心目标

设计目标：for long context的效率来设计模型结构 ↓ 关键指标：长上下文效果 + 推理效率（成本+速度） ↓ 为什么重要：Agent对长上下文非常关键 很小的KV cache能做更多的缓存命中 速度是核心体验

为什么选择Hybrid + MTP而非MHA

MHA的问题（包括GM、Kimi K2）：

在计算上已达LBM bound的临界点
上MTP会被计算瓶颈
所以MHA模型都慢，没有上MTP

MiMo的选择：

Hybrid架构（sliding window + full attention） ↓ 7:1的sliding window比例（Flash是5:1） ↓ 通过sliding window减少KV cache ↓ MTP填满节省的计算力 ↓ 推理时：显存和计算达到很好的平衡

MTP选择的契机

“MTP的选择还真的是蛮后验的。模型已经快训到中后期，我们开始为它设计推理方案的时候，发现计算剩余实在太多太多了。”

为什么之前没有人用：

大家太相信MHA了
MHA在模型结构上把能做的都做到极致
但当Post-train周期拉长后，MHA失去了灵活性

混合注意力机制参数

层级比系数比更重要 ↓ 更大模型：层数更多，但sliding window总层数可以不变 ↓ 可以做更高的稀疏比 ↓ 结论：更大模型可以更稀疏

3.3 训练稳定性问题

典型问题：

Loss spike（Loss直接飘）
某些expert负载极端化
激活值异常大

解决路径：

1. 发现问题 → 建立严密监控系统 - 查看Expert负载 - 查看每层参数输入输出 - 查看激活值是否异常 2. 定位原因（可能是） - 稀疏比太高 - 结构问题 - Infran bug（某个通信算子写错） 3. 解决方案 - Clip掉 - 通过norm压下去 - 借鉴QK Norm - 等训练稳态后再放开

“我们认为有loss spike肯定会导致某一步的更新特别不稳定。必须停下时间来找问题，哪怕停两周。”

3.4 多模态融合策略

音频离散化

选择原因：

追求统一到LLM范式
所有东西离散化更优雅
监督信号更清晰
可以做NTP prediction

技术挑战：

多层RVQ保证离散表征是大像凳子的高维空间
预训练涌现更难出现，出现时间更晚
需要投入更多算力

图片状态

“图片能这么做吗？图片正在进行中。不知道能不能迈过去。”

架构权衡：

优先保证模型具备整体智能水平
不追求为了统一而统一
如果离散不可行，会采用主流架构

四、推理效率与成本

4.1 速度的意义

“你一旦体验到了更快的模型，以及智能水平相当的更快模型，你就回不到那个更慢的模型的水平了。”

效率带来的可能性：

更快速度 → 可以做10M甚至100M上下文 ↓ 更长的context → 产生更高的智能

4.2 定价逻辑变化

预训练时代：根据模型架构优势定价
后训练时代：根据最终产生的价值定价

价值 = 模型架构优势 + 对Agent场景的理解能力

4.3 MTP带来的成本优势

“MTP因为它会被verified的。只有你预测的准，我才会采纳你当前token的结果。所以它没有任何幻觉。”

原理：

MTP在更短时间吐出更多token
GPU利用率更高
单token生成成本降低

五、算力资源配置

5.1 理想卡分配比例

研究 : 预训练 : 后训练 = 3 : 1 : 1

解读：

研究比例应该至少是正式起训练的卡总量的更多倍
预训练和后训练算力投入应该相当
这是Agent时代的重要变化

对比：Pre-train时代这个比例可能是夸张的33:15:1

5.2 瓶颈变化

“Idea的诞生和动手写代码太快了。现在卡在卡上。”

新瓶颈：

训练阶段：GPU效率
推理阶段：推理卡需求量比训练更高（几倍到10倍）
核心：存储可能成为主要瓶颈

六、Agent框架的未来演进

6.1 当前缺陷

三层进化还未发生： 1. 框架本身的自进化（self-improving） 2. Agent之间的互相进化 3. Agent跟人之间的互相进化

6.2 开源的重要性

为什么开源：

闭源框架无法洞察框架设计
无法利用大部分人的智慧改进
需要更多人一起做，不是某一个公司能做好

隐私解决方案：

本地化推理 → 隐私相关任务 云端推理 → 非隐私 + 高难度 + 高创造力任务

6.3 多Agent协作

“更复杂任务不可能是单一Agent去做。多Agent协作某种程度上也是为了成本的考量。”

当前状态：

多Agent能提升效率、速度、节省成本
但还没有证据表明多Agent能实现更高的上限

七、2026年竞争格局

7.1 中美差距判断

“现在大家在Pre-train上的代差是基本没有的，或者说非常接近。国内团队在结构上是有优势的。”

追赶速度：

具备1T以上基座：Kimi、MiMo等
如果反应速度足够快，距离Claude Opus 4.6可能只有两三个月的代差

关键变量：

接下来两三个月是考验团队研究水平、技术敏捷程度的时候
如何拥抱新的范式来做研究非常关键

7.2 Agent时代的入场券

入场券标准： 1. 至少1T以上参数的基座模型 2. 基座在Context上能力相当 3. 具备做Agent Post-train的敏捷性

7.3 竞争维度扩展

从预训练 → 需要同时考虑： - Agent框架的演进 - 推理芯片的整个市场供需 - 10M context什么时候做 - 更广不是更大的芯片的模型结构

八、组织与管理

8.1 团队构成

总人数：约100人（含所有链路） 分布： - 数据采集、数据质量 - Pre-train、Post-train - 开发、产品 - 三个方向算法（语言、多模态、语音） 实际投入一代模型迭代：20-30人

特点：

没有组，没有固定划分
没有层级
实习生比例高
实习生生源：大二大三优先

8.2 扁平化管理的逻辑

“任何层级在一定程度上都是在规范和约束，规范和约束本身我认为是在压制创造力的。”

选择标准：

不在乎历史背景和基因
更在乎初始化潜力的上限高不高
基础要好（能做成事）
好奇心强
热爱驱动做事
多样性（避免同质化miss掉噪音信息）

8.3 热爱驱动的方法

核心方式：体验驱动热情

“春节期间我跟团队说，如果第二天OpenClaw对话次数不超过100轮的人可以直接quit。但我第二天没有去考核，因为我只是希望大家用起来。”

8.4 Pre-train人做Post-train的原因

“做预训练的人第一应该关注的事情是多样性。他不能往这个模型里边塞一小部分数据，他要塞多样性更好的数据。做预训练的人去做后训练有非常大的优势——他会天然更在乎多样性。”

九、技术发展时间线

9.1 从2022到2026的演进

时间	阶段	核心事件	代表
2022	Chat时代	ChatGPT引爆对话智能	OpenAI
2023	开源追赶	LLaMA开源，Qwen跟进	Meta, 阿里
2024	范式探索	o1/o3、Reasoning	OpenAI
2025	Agent元年	Agent框架成熟	Anthropic
2026	生产力爆发	Agent + Post-train主导	百家争鸣

9.2 Code的贯穿作用

Chat时代：Code在4K context里验证智能 ↓ Reasoning时代：Code有很好的verify指标 ↓ Agent时代：Code可以天然做很长的任务（软件工程） 在每个范式上都是优雅的路径

十、关键判断与预言

10.1 AGI时间线

“我感觉两年的应该能实现。”

里程碑节点：AI能训练AI

可以自体升
具备做新研究的能力
自学习自迭代的巅峰

10.2 Code之后的下一步

Coding之后： 1. 替代更多程序员 2. 参与实际项目开发 3. 延伸到更广泛生产力场景 4. 从屏幕跃出到真实空间（机器人）

10.3 开源vs闭源的选择逻辑

“你有没有一个别人不可以短期内拿下的战略生态位。如果有，你就敢开源。如果没有，模型就是你的生态位，那你就闭源。”

十一、观众反馈与补充

“模型是大脑，工程上的编排才能够让大脑合理发挥应有的水平”—— 对Agent框架价值的认可
“普通人学不来，应该是用最好的模型+无限制花费才能做到”—— 指出早期探索的高成本门槛
OpenClaw已经不再是黑盒—— 开源带来的透明性优势

附录

术语	全称	解释
Pre-train	预训练	大规模语料上的基础模型训练
Post-train	后训练	SFT、RL等针对特定能力的训练
MTP	Multi-Token Prediction	多token预测，可加速推理
MHA	Multi-Head Attention	多头注意力机制
Hybrid	混合注意力	sliding window + full attention混合
KV Cache	Key-Value缓存	减少重复计算的缓存机制
Skill	技能	Agent学会的特定任务能力
Agent	智能体	能自主完成复杂任务的AI系统
SFT	Supervised Fine-Tuning	监督微调
RL	Reinforcement Learning	强化学习
Rollout	推理展开	生成完整回答的过程
LBM	Landauer Bound Model	理论计算下界模型

观点