观点
以OpenClaw发布为标志,
AI从"以Rollout推理引擎为核心"转向"以Agent为核心"的更复杂系统Claude Opus 4.6的路径是正确的;国内大模型团队Pre-train代差已基本消除
研究:预训练:后训练的理想卡比例约为3:1:1(后训练算力投入将与预训练相当)Agent时代需要至少1T以上参数的基座模型,才能做到接近Claude 4.6 Opus的水平
一、OpenClaw带来的范式冲击
最初对OpenClaw是排斥的:
“我第一次看到这个东西的时候,我自己大概也是这样认知。所以我很排斥去用它。创始人非常适合贴近Agent的去做一些非常玄幻的一些运营的动作。”
这种转变发生在春节期间:
“第一天:从凌晨2点持续到6点天亮。持续在分泌多巴胺,兴奋到完全睡不着觉。”
体验
| 层级 | 体验 | 发现 |
|---|---|---|
| 第一天 | 产品体验 | “有灵魂有温度”,memory有分层分级设计 |
| 第二天 | 工作替代 | 可以帮忙构建团队管理方案、沉淀成skills |
| 第三天 | 研究促进 | 与它沟通2小时,就完成了原本认为需要很长时间的User Agent设计 |
技术差异
1. Memory系统设计
- OpenClaw:持久化memory,有分层分级,
跨session的context共享更好 - Claude Code:session内压缩,记忆设计for软件工程
2. 多模型调度能力
OpenClaw的设计理念:
- → 模型能力有短板?框架本身去弥补
- → 不需要人工配置,视频理解任务自动找更强的模型
- → “它的设计之初,是想尽量的通过
agent的整套的编排来去弥补模型的短板”
3. 可定制性
- Claude Code是黑盒,无法修改
- OpenClaw开源,可以自己改memory系统、改agent workflow设计
“我知道他框架怎么设计,你让他去改,你自己现场列一个新的框架出来,你可以给予它现场一个新的框架出来。”
"OpenClaw只是壳"×
有一种说法认为OpenClaw只是释放了Claude 4.6 Opus能力的"最好的壳"。
它的上限一定是靠的4.6 Opus带来的。但是让4O给改好过后,这套框架本身是很好用了过后,再
切换到国内的一些模型,依然非常强大。
Agent框架激发了中层模型的上限
没有复杂框架:中等模型只能达到中等水平 有复杂框架:中等模型在85%的任务上能达到Claude Summit水准Agent框架的本质定义
“产品可以直接人交互能感受到那一层的东西。但Agent框架它确实有在去定义你的交互层。同时又在定义你怎么跟模型沟通那一层。相当于是一个中间层,它可以做的非常的厚重。前端的UI展示它是最薄的一层。”
好框架的标准:
- 弥补行动上的缺陷(memory系统、message channel、自主性设计)
- 自我更新迭代
- 有很好的可泛化评估体系
二、Agent时代的Post-train
2.1 为什么Agent很吃Post-train
“我之前认为我们自己做的工作已经足够有创造力、足够不会被Skill化、不会被Workflow化。但我现在发现,它竟然也能!那它可不可以训出更强的模型?自己左脚踩右脚就提升了?——这是这一两年会发生的事情。”
Agent自学习的发生途径:
模型进步(通过RL等训练方式) ↓ 改变整套Agent框架 ↓ Agent框架包含静态信息(memory写死哪些送到新session) ↓ Agent框架包含动态信息(架构设计本身) ↓ 框架跟模型同步往前走2.2 从"Chat"到"Agent"的牵引
“整个后训练就要从所谓的Chat到Agent这样这样的一个牵引。”
核心任务:
- 在Agent场景里,把真的长程的任务给它构造出来,并且训练进去
- 大量SFT和RL训练
- 覆盖更多领域提升泛化性
以Code为上限,以其他领域为下限:
- Code做好 → 基座具备长上下文能力
- 其他领域覆盖 → 模型通用性稳定
2.3 长上下文训练的实操经验
误区澄清:不需要真的找到塞满1M上下文的任务
- 1M tokens训练效率太低
- 训练1M trajectory耗时可能一两分钟
正确做法:
- 预训练有1M context训练过
- 后训练有对应的任务稍微激活
- 就能在1M context具备这样的能力
资产选择问题:
- 大部分资产不适合做长程任务建模
- reward太不清晰
- 回撤是没有价值的
- 真实环境run可能涉及长期因素和额外alpha
三、MiMo-V2系列模型技术解析
3.1 模型概览
| 模型 | 定位 | 特点 |
|---|---|---|
| MiMo-V2 Flash | 快速验证 | 高性价比,100-150 TPS |
| MiMo-V2 Pro | 主力旗舰 | 60-100 TPS,更强智能 |
| MiMo-V2 Omni | 全模态理解 | 视频+音频+图片+文本联合理解 |
| MiMo-V2 TTS | 语音生成 | 离散化建模到LLM范式 |
3.2 架构设计决策
核心目标
设计目标:for long context的效率来设计模型结构 ↓ 关键指标:长上下文效果 + 推理效率(成本+速度) ↓ 为什么重要:Agent对长上下文非常关键 很小的KV cache能做更多的缓存命中 速度是核心体验为什么选择Hybrid + MTP而非MHA
MHA的问题(包括GM、Kimi K2):
- 在计算上已达LBM bound的临界点
- 上MTP会被计算瓶颈
- 所以MHA模型都慢,没有上MTP
MiMo的选择:
Hybrid架构(sliding window + full attention) ↓ 7:1的sliding window比例(Flash是5:1) ↓ 通过sliding window减少KV cache ↓ MTP填满节省的计算力 ↓ 推理时:显存和计算达到很好的平衡MTP选择的契机
“MTP的选择还真的是蛮后验的。模型已经快训到中后期,我们开始为它设计推理方案的时候,发现计算剩余实在太多太多了。”
为什么之前没有人用:
- 大家太相信MHA了
- MHA在模型结构上把能做的都做到极致
- 但当Post-train周期拉长后,MHA失去了灵活性
混合注意力机制参数
层级比系数比更重要 ↓ 更大模型:层数更多,但sliding window总层数可以不变 ↓ 可以做更高的稀疏比 ↓ 结论:更大模型可以更稀疏3.3 训练稳定性问题
典型问题:
- Loss spike(Loss直接飘)
- 某些expert负载极端化
- 激活值异常大
解决路径:
1. 发现问题 → 建立严密监控系统 - 查看Expert负载 - 查看每层参数输入输出 - 查看激活值是否异常 2. 定位原因(可能是) - 稀疏比太高 - 结构问题 - Infran bug(某个通信算子写错) 3. 解决方案 - Clip掉 - 通过norm压下去 - 借鉴QK Norm - 等训练稳态后再放开“我们认为有loss spike肯定会导致某一步的更新特别不稳定。必须停下时间来找问题,哪怕停两周。”
3.4 多模态融合策略
音频离散化
选择原因:
- 追求统一到LLM范式
- 所有东西离散化更优雅
- 监督信号更清晰
- 可以做NTP prediction
技术挑战:
- 多层RVQ保证离散表征是大像凳子的高维空间
- 预训练涌现更难出现,出现时间更晚
- 需要投入更多算力
图片状态
“图片能这么做吗?图片正在进行中。不知道能不能迈过去。”
架构权衡:
- 优先保证模型具备整体智能水平
- 不追求为了统一而统一
- 如果离散不可行,会采用主流架构
四、推理效率与成本
4.1 速度的意义
“你一旦体验到了更快的模型,以及智能水平相当的更快模型,你就回不到那个更慢的模型的水平了。”
效率带来的可能性:
更快速度 → 可以做10M甚至100M上下文 ↓ 更长的context → 产生更高的智能4.2 定价逻辑变化
预训练时代:根据模型架构优势定价
后训练时代:根据最终产生的价值定价
价值 = 模型架构优势 + 对Agent场景的理解能力4.3 MTP带来的成本优势
“MTP因为它会被verified的。只有你预测的准,我才会采纳你当前token的结果。所以它没有任何幻觉。”
原理:
- MTP在更短时间吐出更多token
- GPU利用率更高
- 单token生成成本降低
五、算力资源配置
5.1 理想卡分配比例
研究 : 预训练 : 后训练 = 3 : 1 : 1解读:
- 研究比例应该至少是正式起训练的卡总量的更多倍
- 预训练和后训练算力投入应该相当
- 这是Agent时代的重要变化
对比:Pre-train时代这个比例可能是夸张的33:15:1
5.2 瓶颈变化
“Idea的诞生和动手写代码太快了。现在卡在卡上。”
新瓶颈:
- 训练阶段:GPU效率
- 推理阶段:推理卡需求量比训练更高(几倍到10倍)
- 核心:存储可能成为主要瓶颈
六、Agent框架的未来演进
6.1 当前缺陷
三层进化还未发生: 1. 框架本身的自进化(self-improving) 2. Agent之间的互相进化 3. Agent跟人之间的互相进化6.2 开源的重要性
为什么开源:
- 闭源框架无法洞察框架设计
- 无法利用大部分人的智慧改进
- 需要更多人一起做,不是某一个公司能做好
隐私解决方案:
本地化推理 → 隐私相关任务 云端推理 → 非隐私 + 高难度 + 高创造力任务6.3 多Agent协作
“更复杂任务不可能是单一Agent去做。多Agent协作某种程度上也是为了成本的考量。”
当前状态:
- 多Agent能提升效率、速度、节省成本
- 但还没有证据表明多Agent能实现更高的上限
七、2026年竞争格局
7.1 中美差距判断
“现在大家在Pre-train上的代差是基本没有的,或者说非常接近。国内团队在结构上是有优势的。”
追赶速度:
- 具备1T以上基座:Kimi、MiMo等
- 如果反应速度足够快,距离Claude Opus 4.6可能只有两三个月的代差
关键变量:
- 接下来两三个月是考验团队研究水平、技术敏捷程度的时候
- 如何拥抱新的范式来做研究非常关键
7.2 Agent时代的入场券
入场券标准: 1. 至少1T以上参数的基座模型 2. 基座在Context上能力相当 3. 具备做Agent Post-train的敏捷性7.3 竞争维度扩展
从预训练 → 需要同时考虑: - Agent框架的演进 - 推理芯片的整个市场供需 - 10M context什么时候做 - 更广不是更大的芯片的模型结构八、组织与管理
8.1 团队构成
总人数:约100人(含所有链路) 分布: - 数据采集、数据质量 - Pre-train、Post-train - 开发、产品 - 三个方向算法(语言、多模态、语音) 实际投入一代模型迭代:20-30人特点:
- 没有组,没有固定划分
- 没有层级
- 实习生比例高
- 实习生生源:大二大三优先
8.2 扁平化管理的逻辑
“任何层级在一定程度上都是在规范和约束,规范和约束本身我认为是在压制创造力的。”
选择标准:
- 不在乎历史背景和基因
- 更在乎初始化潜力的上限高不高
- 基础要好(能做成事)
- 好奇心强
- 热爱驱动做事
- 多样性(避免同质化miss掉噪音信息)
8.3 热爱驱动的方法
核心方式:体验驱动热情
“春节期间我跟团队说,如果第二天OpenClaw对话次数不超过100轮的人可以直接quit。但我第二天没有去考核,因为我只是希望大家用起来。”
8.4 Pre-train人做Post-train的原因
“做预训练的人第一应该关注的事情是多样性。他不能往这个模型里边塞一小部分数据,他要塞多样性更好的数据。做预训练的人去做后训练有非常大的优势——他会天然更在乎多样性。”
九、技术发展时间线
9.1 从2022到2026的演进
| 时间 | 阶段 | 核心事件 | 代表 |
|---|---|---|---|
| 2022 | Chat时代 | ChatGPT引爆对话智能 | OpenAI |
| 2023 | 开源追赶 | LLaMA开源,Qwen跟进 | Meta, 阿里 |
| 2024 | 范式探索 | o1/o3、Reasoning | OpenAI |
| 2025 | Agent元年 | Agent框架成熟 | Anthropic |
| 2026 | 生产力爆发 | Agent + Post-train主导 | 百家争鸣 |
9.2 Code的贯穿作用
Chat时代:Code在4K context里验证智能 ↓ Reasoning时代:Code有很好的verify指标 ↓ Agent时代:Code可以天然做很长的任务(软件工程) 在每个范式上都是优雅的路径十、关键判断与预言
10.1 AGI时间线
“我感觉两年的应该能实现。”
里程碑节点:AI能训练AI
- 可以自体升
- 具备做新研究的能力
- 自学习自迭代的巅峰
10.2 Code之后的下一步
Coding之后: 1. 替代更多程序员 2. 参与实际项目开发 3. 延伸到更广泛生产力场景 4. 从屏幕跃出到真实空间(机器人)10.3 开源vs闭源的选择逻辑
“你有没有一个别人不可以短期内拿下的战略生态位。如果有,你就敢开源。如果没有,模型就是你的生态位,那你就闭源。”
十一、观众反馈与补充
“模型是大脑,工程上的编排才能够让大脑合理发挥应有的水平”—— 对Agent框架价值的认可
“普通人学不来,应该是用最好的模型+无限制花费才能做到”—— 指出早期探索的高成本门槛
OpenClaw已经不再是黑盒—— 开源带来的透明性优势
附录
| 术语 | 全称 | 解释 |
|---|---|---|
| Pre-train | 预训练 | 大规模语料上的基础模型训练 |
| Post-train | 后训练 | SFT、RL等针对特定能力的训练 |
| MTP | Multi-Token Prediction | 多token预测,可加速推理 |
| MHA | Multi-Head Attention | 多头注意力机制 |
| Hybrid | 混合注意力 | sliding window + full attention混合 |
| KV Cache | Key-Value缓存 | 减少重复计算的缓存机制 |
| Skill | 技能 | Agent学会的特定任务能力 |
| Agent | 智能体 | 能自主完成复杂任务的AI系统 |
| SFT | Supervised Fine-Tuning | 监督微调 |
| RL | Reinforcement Learning | 强化学习 |
| Rollout | 推理展开 | 生成完整回答的过程 |
| LBM | Landauer Bound Model | 理论计算下界模型 |