news 2026/4/24 14:25:49

Agent时代 | 研究:预训练:后训练=3:1:1

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Agent时代 | 研究:预训练:后训练=3:1:1

观点

  • 以OpenClaw发布为标志,AI从"以Rollout推理引擎为核心"转向"以Agent为核心"的更复杂系统

  • Claude Opus 4.6的路径是正确的;国内大模型团队Pre-train代差已基本消除

  • 研究:预训练:后训练的理想卡比例约为3:1:1(后训练算力投入将与预训练相当)

  • Agent时代需要至少1T以上参数的基座模型,才能做到接近Claude 4.6 Opus的水平


一、OpenClaw带来的范式冲击

最初对OpenClaw是排斥的:

“我第一次看到这个东西的时候,我自己大概也是这样认知。所以我很排斥去用它。创始人非常适合贴近Agent的去做一些非常玄幻的一些运营的动作。”

这种转变发生在春节期间:

“第一天:从凌晨2点持续到6点天亮。持续在分泌多巴胺,兴奋到完全睡不着觉。”

体验

层级体验发现
第一天产品体验“有灵魂有温度”,memory有分层分级设计
第二天工作替代可以帮忙构建团队管理方案、沉淀成skills
第三天研究促进与它沟通2小时,就完成了原本认为需要很长时间的User Agent设计

技术差异

1. Memory系统设计

  • OpenClaw:持久化memory,有分层分级,跨session的context共享更好
  • Claude Code:session内压缩,记忆设计for软件工程

2. 多模型调度能力

OpenClaw的设计理念:

  • → 模型能力有短板?框架本身去弥补
  • → 不需要人工配置,视频理解任务自动找更强的模型
  • → “它的设计之初,是想尽量的通过agent的整套的编排来去弥补模型的短板

3. 可定制性

  • Claude Code是黑盒,无法修改
  • OpenClaw开源,可以自己改memory系统、改agent workflow设计

“我知道他框架怎么设计,你让他去改,你自己现场列一个新的框架出来,你可以给予它现场一个新的框架出来。”

"OpenClaw只是壳"×

有一种说法认为OpenClaw只是释放了Claude 4.6 Opus能力的"最好的壳"。

它的上限一定是靠的4.6 Opus带来的。但是让4O给改好过后,这套框架本身是很好用了过后,再切换到国内的一些模型,依然非常强大。

Agent框架激发了中层模型的上限

没有复杂框架:中等模型只能达到中等水平 有复杂框架:中等模型在85%的任务上能达到Claude Summit水准
Agent框架的本质定义

“产品可以直接人交互能感受到那一层的东西。但Agent框架它确实有在去定义你的交互层。同时又在定义你怎么跟模型沟通那一层。相当于是一个中间层,它可以做的非常的厚重。前端的UI展示它是最薄的一层。”

好框架的标准

  • 弥补行动上的缺陷(memory系统、message channel、自主性设计)
  • 自我更新迭代
  • 有很好的可泛化评估体系

二、Agent时代的Post-train

2.1 为什么Agent很吃Post-train

“我之前认为我们自己做的工作已经足够有创造力、足够不会被Skill化、不会被Workflow化。但我现在发现,它竟然也能!那它可不可以训出更强的模型?自己左脚踩右脚就提升了?——这是这一两年会发生的事情。”

Agent自学习的发生途径

模型进步(通过RL等训练方式) ↓ 改变整套Agent框架 ↓ Agent框架包含静态信息(memory写死哪些送到新session) ↓ Agent框架包含动态信息(架构设计本身) ↓ 框架跟模型同步往前走

2.2 从"Chat"到"Agent"的牵引

“整个后训练就要从所谓的Chat到Agent这样这样的一个牵引。”

核心任务

  1. 在Agent场景里,把真的长程的任务给它构造出来,并且训练进去
  2. 大量SFT和RL训练
  3. 覆盖更多领域提升泛化性

以Code为上限,以其他领域为下限

  • Code做好 → 基座具备长上下文能力
  • 其他领域覆盖 → 模型通用性稳定

2.3 长上下文训练的实操经验

误区澄清:不需要真的找到塞满1M上下文的任务

  • 1M tokens训练效率太低
  • 训练1M trajectory耗时可能一两分钟

正确做法

  • 预训练有1M context训练过
  • 后训练有对应的任务稍微激活
  • 就能在1M context具备这样的能力

资产选择问题

  • 大部分资产不适合做长程任务建模
  • reward太不清晰
  • 回撤是没有价值的
  • 真实环境run可能涉及长期因素和额外alpha

三、MiMo-V2系列模型技术解析

3.1 模型概览

模型定位特点
MiMo-V2 Flash快速验证高性价比,100-150 TPS
MiMo-V2 Pro主力旗舰60-100 TPS,更强智能
MiMo-V2 Omni全模态理解视频+音频+图片+文本联合理解
MiMo-V2 TTS语音生成离散化建模到LLM范式

3.2 架构设计决策

核心目标
设计目标:for long context的效率来设计模型结构 ↓ 关键指标:长上下文效果 + 推理效率(成本+速度) ↓ 为什么重要:Agent对长上下文非常关键 很小的KV cache能做更多的缓存命中 速度是核心体验
为什么选择Hybrid + MTP而非MHA

MHA的问题(包括GM、Kimi K2):

  • 在计算上已达LBM bound的临界点
  • 上MTP会被计算瓶颈
  • 所以MHA模型都慢,没有上MTP

MiMo的选择

Hybrid架构(sliding window + full attention) ↓ 7:1的sliding window比例(Flash是5:1) ↓ 通过sliding window减少KV cache ↓ MTP填满节省的计算力 ↓ 推理时:显存和计算达到很好的平衡
MTP选择的契机

“MTP的选择还真的是蛮后验的。模型已经快训到中后期,我们开始为它设计推理方案的时候,发现计算剩余实在太多太多了。”

为什么之前没有人用

  • 大家太相信MHA了
  • MHA在模型结构上把能做的都做到极致
  • 但当Post-train周期拉长后,MHA失去了灵活性
混合注意力机制参数
层级比系数比更重要 ↓ 更大模型:层数更多,但sliding window总层数可以不变 ↓ 可以做更高的稀疏比 ↓ 结论:更大模型可以更稀疏

3.3 训练稳定性问题

典型问题

  • Loss spike(Loss直接飘)
  • 某些expert负载极端化
  • 激活值异常大

解决路径

1. 发现问题 → 建立严密监控系统 - 查看Expert负载 - 查看每层参数输入输出 - 查看激活值是否异常 2. 定位原因(可能是) - 稀疏比太高 - 结构问题 - Infran bug(某个通信算子写错) 3. 解决方案 - Clip掉 - 通过norm压下去 - 借鉴QK Norm - 等训练稳态后再放开

“我们认为有loss spike肯定会导致某一步的更新特别不稳定。必须停下时间来找问题,哪怕停两周。”

3.4 多模态融合策略

音频离散化

选择原因

  • 追求统一到LLM范式
  • 所有东西离散化更优雅
  • 监督信号更清晰
  • 可以做NTP prediction

技术挑战

  • 多层RVQ保证离散表征是大像凳子的高维空间
  • 预训练涌现更难出现,出现时间更晚
  • 需要投入更多算力
图片状态

“图片能这么做吗?图片正在进行中。不知道能不能迈过去。”

架构权衡

  • 优先保证模型具备整体智能水平
  • 不追求为了统一而统一
  • 如果离散不可行,会采用主流架构

四、推理效率与成本

4.1 速度的意义

“你一旦体验到了更快的模型,以及智能水平相当的更快模型,你就回不到那个更慢的模型的水平了。”

效率带来的可能性

更快速度 → 可以做10M甚至100M上下文 ↓ 更长的context → 产生更高的智能

4.2 定价逻辑变化

预训练时代:根据模型架构优势定价
后训练时代:根据最终产生的价值定价

价值 = 模型架构优势 + 对Agent场景的理解能力

4.3 MTP带来的成本优势

“MTP因为它会被verified的。只有你预测的准,我才会采纳你当前token的结果。所以它没有任何幻觉。”

原理

  • MTP在更短时间吐出更多token
  • GPU利用率更高
  • 单token生成成本降低

五、算力资源配置

5.1 理想卡分配比例

研究 : 预训练 : 后训练 = 3 : 1 : 1

解读

  • 研究比例应该至少是正式起训练的卡总量的更多倍
  • 预训练和后训练算力投入应该相当
  • 这是Agent时代的重要变化

对比:Pre-train时代这个比例可能是夸张的33:15:1

5.2 瓶颈变化

“Idea的诞生和动手写代码太快了。现在卡在卡上。”

新瓶颈

  • 训练阶段:GPU效率
  • 推理阶段:推理卡需求量比训练更高(几倍到10倍)
  • 核心:存储可能成为主要瓶颈

六、Agent框架的未来演进

6.1 当前缺陷

三层进化还未发生: 1. 框架本身的自进化(self-improving) 2. Agent之间的互相进化 3. Agent跟人之间的互相进化

6.2 开源的重要性

为什么开源

  • 闭源框架无法洞察框架设计
  • 无法利用大部分人的智慧改进
  • 需要更多人一起做,不是某一个公司能做好

隐私解决方案

本地化推理 → 隐私相关任务 云端推理 → 非隐私 + 高难度 + 高创造力任务

6.3 多Agent协作

“更复杂任务不可能是单一Agent去做。多Agent协作某种程度上也是为了成本的考量。”

当前状态

  • 多Agent能提升效率、速度、节省成本
  • 但还没有证据表明多Agent能实现更高的上限

七、2026年竞争格局

7.1 中美差距判断

“现在大家在Pre-train上的代差是基本没有的,或者说非常接近。国内团队在结构上是有优势的。”

追赶速度

  • 具备1T以上基座:Kimi、MiMo等
  • 如果反应速度足够快,距离Claude Opus 4.6可能只有两三个月的代差

关键变量

  • 接下来两三个月是考验团队研究水平、技术敏捷程度的时候
  • 如何拥抱新的范式来做研究非常关键

7.2 Agent时代的入场券

入场券标准: 1. 至少1T以上参数的基座模型 2. 基座在Context上能力相当 3. 具备做Agent Post-train的敏捷性

7.3 竞争维度扩展

从预训练 → 需要同时考虑: - Agent框架的演进 - 推理芯片的整个市场供需 - 10M context什么时候做 - 更广不是更大的芯片的模型结构

八、组织与管理

8.1 团队构成

总人数:约100人(含所有链路) 分布: - 数据采集、数据质量 - Pre-train、Post-train - 开发、产品 - 三个方向算法(语言、多模态、语音) 实际投入一代模型迭代:20-30人

特点

  • 没有组,没有固定划分
  • 没有层级
  • 实习生比例高
  • 实习生生源:大二大三优先

8.2 扁平化管理的逻辑

“任何层级在一定程度上都是在规范和约束,规范和约束本身我认为是在压制创造力的。”

选择标准

  • 不在乎历史背景和基因
  • 更在乎初始化潜力的上限高不高
  • 基础要好(能做成事)
  • 好奇心强
  • 热爱驱动做事
  • 多样性(避免同质化miss掉噪音信息)

8.3 热爱驱动的方法

核心方式:体验驱动热情

“春节期间我跟团队说,如果第二天OpenClaw对话次数不超过100轮的人可以直接quit。但我第二天没有去考核,因为我只是希望大家用起来。”

8.4 Pre-train人做Post-train的原因

“做预训练的人第一应该关注的事情是多样性。他不能往这个模型里边塞一小部分数据,他要塞多样性更好的数据。做预训练的人去做后训练有非常大的优势——他会天然更在乎多样性。”


九、技术发展时间线

9.1 从2022到2026的演进

时间阶段核心事件代表
2022Chat时代ChatGPT引爆对话智能OpenAI
2023开源追赶LLaMA开源,Qwen跟进Meta, 阿里
2024范式探索o1/o3、ReasoningOpenAI
2025Agent元年Agent框架成熟Anthropic
2026生产力爆发Agent + Post-train主导百家争鸣

9.2 Code的贯穿作用

Chat时代:Code在4K context里验证智能 ↓ Reasoning时代:Code有很好的verify指标 ↓ Agent时代:Code可以天然做很长的任务(软件工程) 在每个范式上都是优雅的路径

十、关键判断与预言

10.1 AGI时间线

“我感觉两年的应该能实现。”

里程碑节点:AI能训练AI

  • 可以自体升
  • 具备做新研究的能力
  • 自学习自迭代的巅峰

10.2 Code之后的下一步

Coding之后: 1. 替代更多程序员 2. 参与实际项目开发 3. 延伸到更广泛生产力场景 4. 从屏幕跃出到真实空间(机器人)

10.3 开源vs闭源的选择逻辑

“你有没有一个别人不可以短期内拿下的战略生态位。如果有,你就敢开源。如果没有,模型就是你的生态位,那你就闭源。”


十一、观众反馈与补充

  1. “模型是大脑,工程上的编排才能够让大脑合理发挥应有的水平”—— 对Agent框架价值的认可

  2. “普通人学不来,应该是用最好的模型+无限制花费才能做到”—— 指出早期探索的高成本门槛

  3. OpenClaw已经不再是黑盒—— 开源带来的透明性优势


附录

术语全称解释
Pre-train预训练大规模语料上的基础模型训练
Post-train后训练SFT、RL等针对特定能力的训练
MTPMulti-Token Prediction多token预测,可加速推理
MHAMulti-Head Attention多头注意力机制
Hybrid混合注意力sliding window + full attention混合
KV CacheKey-Value缓存减少重复计算的缓存机制
Skill技能Agent学会的特定任务能力
Agent智能体能自主完成复杂任务的AI系统
SFTSupervised Fine-Tuning监督微调
RLReinforcement Learning强化学习
Rollout推理展开生成完整回答的过程
LBMLandauer Bound Model理论计算下界模型
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/24 14:24:58

Windows安卓应用安装器:无需模拟器直接运行APK的终极指南

Windows安卓应用安装器:无需模拟器直接运行APK的终极指南 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否厌倦了臃肿的安卓模拟器?想要在…

作者头像 李华
网站建设 2026/4/24 14:21:28

5分钟快速上手:BG3ModManager让你的博德之门3模组管理轻松无忧

5分钟快速上手:BG3ModManager让你的博德之门3模组管理轻松无忧 【免费下载链接】BG3ModManager A mod manager for Baldurs Gate 3. This is the only official source! 项目地址: https://gitcode.com/gh_mirrors/bg/BG3ModManager 你是否曾经为《博德之门3…

作者头像 李华