news 2026/1/26 1:25:14

Deep Research 只有贵族能玩?StepFun 用 32B 模型把成本打到了几毛钱

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Deep Research 只有贵族能玩?StepFun 用 32B 模型把成本打到了几毛钱

如果说 2024 年是 RAG 的元年,那么 2025 年无疑是Deep Research的“战国时代”。

前有 OpenAI 的 Deep Research 惊艳亮相,后有 Google Gemini 的强势跟进。大家都在卷一个能力:如何让 AI 不仅仅是回答问题,而是像一个真正的分析师一样,花上半小时,翻阅几百个网页,给你写一份几十页的深度研报。

但在大家的固有印象里,要做到这一点,通常意味着两件事:

  1. 模型要大:没个 70B 甚至几百 B 的参数,逻辑根本跑不通。

  2. 架构要繁:必须得搞复杂的 Multi-agent(多智能体)编排,一个管搜、一个管写、一个管审,热火朝天。

但是,今天这篇论文可能要打破你的迷思了。

主角是来自阶跃星辰(StepFun)的Step-DeepResearch。这篇技术报告最反直觉的地方在于:它只用了一个32B 的中等模型,配合最朴素的单体(Single-agent)架构,就在专业的 ResearchRubrics 评测上拿下了61.42的高分,不仅甩开了众多开源模型,甚至在这个榜单上逼近了 OpenAI 和 Gemini 的闭源旗舰 。

我们先别急着看技术原理,直接看结果。如果说有什么图能让你一眼明白这个模型的价值,非下面这张莫属:

更离谱的是它的成本——单次报告生成只要不到 0.5 元(RMB),是 OpenAI 同类服务的十分之一 。

他们是怎么做到的?是黑魔法还是硬实力?今天我们就来拆解这篇 Technical Report 背后的门道。

01 核心洞察:搜索(Search)≠ 研究(Research)

很多开发者做 Agent 时容易陷入一个误区:以为给模型配一个联网搜索工具(Search Tool),它就能做研究了。

论文一针见血地指出:Search is not Research(搜索不是研究)

  • 搜索是填空题:你问“2025 年全球 AI 市场规模是多少”,它去把这个数字找出来。

  • 研究是申论题:你需要规划方向、拆解意图、反复验证不同来源的数据、自我反思“我找得对不对”,最后把碎片化的信息整合成一篇有逻辑的报告 。

目前的很多模型,更像是一个高效的爬虫(Web Crawler),只会把网上的碎片信息堆砌给你,不仅逻辑断裂,还容易一本正经地胡说八道 。

StepFun 团队认为,要解决这个问题,不能光靠堆工具,而是要让模型内化出一套“专家的认知循环”

02 技术解密:32B 模型是如何炼成的?

既然不能靠堆参数,那就得靠“练法”。Step-DeepResearch 的核心配方非常值得玩味,主要包含三个关键词:单体架构原子能力Mid-training

1. 返璞归真的架构 (Single-agent ReAct)

在大家都在疯狂叠各种 Agent 搞“群聊”的时候,Step-DeepResearch 选择了一条看似复古的路:单体 ReAct 架构

没有任何花哨的“分身术”,就是一个脑子在干活。它依然遵循经典的“思考-行动-观察”循环 。为什么要这么做?论文认为,通过端到端的训练,让一个模型自己把规划、执行、反思全包圆了,反而比强制拆分成多个模型协作要更高效,信息损耗也更小 。

当然,敢用单体架构,前提是你对这个“单体”的能力极度自信。

2. 四大“原子能力” (Atomic Capabilities)

为了让这个 32B 的小脑瓜变聪明,团队没有直接教它“怎么写报告”,而是把研究任务拆解成了四个原子能力(Atomic Capabilities)进行特训 :

  1. Planning(规划):拿到模糊的需求,先拆解成可执行的子任务。这是为了防止模型像无头苍蝇一样乱搜 。

  2. Information Seeking(深度搜素):不是简单的关键词匹配,而是要学会“顺藤摸瓜”,根据网页的超链接去挖掘深层信息 。

  3. Reflection & Verification(反思与验证):这是最关键的。模型要学会自己问自己:“我搜到的这个数据靠谱吗?和其他来源矛盾吗?”如果错了,要自己修正 。

  4. Reporting(写作):不是简单的拼接,而是要有领域风格(Domain Style),像分析师一样去论证观点 。

3. 秘密武器:Mid-training(中间阶段训练)

这是整篇论文最硬核的部分。

通常我们训练大模型是:Pre-training(预训练) -> SFT(精调)。但 StepFun 在这两者中间插了一个Agentic Mid-training

这就像是一个学生在读完通识教育(Pre-training)后,不要急着去学写具体的八股文(SFT),而是先上一门“逻辑与研究方法论”的必修课

在这个阶段,他们构造了大量的数据,把 Context 长度从 32K 一路拉练到 128K 。

  • 32K 阶段:不给工具,纯靠阅读长文档,逼模型学会从海量文字里提炼逻辑 。

  • 128K 阶段:上强度,引入工具调用、网页浏览、复杂规划,让模型适应超长上下文的决策 。

正是这个Mid-training,把模型从“预测下一个字”的语言模型,强行扭转成了“预测下一个行动”的决策模型 。

03 效果验证:不但强,而且省

光说不练假把式。效果到底怎么样?

这里的图最能说明问题

ResearchRubrics评分上:

  • Gemini DeepResearch: 63.69

  • Step-DeepResearch: 61.42

  • OpenAI DeepResearch: 60.67

  • Kimi-Researcher: 53.67

是的,你没看错,它在这个榜单上甚至微弱领先了 OpenAI 。

自建的“魔鬼考场”:ADR-Bench

作者还顺手吐槽了一下现在的评测集(比如 BrowseComp)太简单了,全是找事实的填空题 。

于是他们搞了个ADR-Bench,专门收录真实世界的刁钻问题,还分了通用版和金融/法律专业版

在最难啃的金融/法律领域,虽然 Gemini 依然是老大(Tier 1),但 Step-DeepResearch 稳稳站住了 Tier 2 的头部位置,和 OpenAI、Kimi 处于同一梯队,把其他模型甩在了后面 。这也说明了,在极度专业的领域,Agent 的流程优化固然重要,但模型本身的领域知识储备依然是硬门槛。

04 The Takeaway

Step-DeepResearch 给当下的 AI 行业打了一剂强心针。它证明了Deep Research 不一定是千亿模型或超级大厂的专利。

这篇论文最大的启示在于:

  1. 数据质量 > 模型参数:通过精心构造的“原子能力”合成数据,中等模型也能涌现出专家级的思考回路。

  2. 训练范式的胜利:Mid-training 可能会成为未来 Agent 模型的标配,它填补了“懂知识”和“会干活”之间的巨大鸿沟。

  3. 单体架构的潜力:别急着搞多智能体,先把单体的脑子练好,有时候“少即是多”。

对于我们普通开发者或企业来说,这意味着部署一个专家级 AI 研究员的成本,正在从“奢侈品”变成“日用品”。

Next Step:你对这种“小模型+强训练”的路线怎么看?欢迎在评论区分享你的看法。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/26 13:26:08

Open-AutoGLM报错难题破解指南(90%开发者忽略的关键点)

第一章:Open-AutoGLM报错难题破解指南(90%开发者忽略的关键点)在使用 Open-AutoGLM 进行自动化代码生成时,许多开发者频繁遭遇运行时异常或模型加载失败的问题。这些问题往往并非源于框架本身,而是配置与环境兼容性处理…

作者头像 李华
网站建设 2026/1/16 22:16:19

为下一代超算设计CPU:HBM带来的性能革新

当一位西雅图的气象学家分析动态大气模型以预测下一个主要风暴系统时;当一位斯图加特的汽车工程师检查碰撞测试模拟以进行车辆安全认证时;当一位新加坡的金融分析师模拟投资组合压力测试以对冲全球经济冲击时——这些专业人士,以及依赖他们洞…

作者头像 李华
网站建设 2026/1/22 5:56:23

PaddlePaddle动态图 vs 静态图:哪种更适合你的深度学习项目?

PaddlePaddle动态图 vs 静态图:哪种更适合你的深度学习项目? 在构建一个中文文本分类系统时,你是否曾面临这样的困境:训练阶段调试困难、模型修改频繁,但上线后又对推理延迟和吞吐量有严苛要求?这正是许多A…

作者头像 李华
网站建设 2025/12/26 13:21:35

PaddlePaddle年报分析AI摘要系统

PaddlePaddle年报分析AI摘要系统 在金融信息处理领域,上市公司年报的阅读与分析长期以来依赖人工逐页审阅。一份典型的A股公司年报动辄两三百页,涵盖财务报表、管理层讨论、风险提示等复杂内容,分析师往往需要数小时才能提取出关键指标。随着…

作者头像 李华
网站建设 2025/12/26 13:21:34

揭秘Open-AutoGLM网页操作秘籍:90%用户不知道的3大核心功能

第一章:Open-AutoGLM网页怎么用Open-AutoGLM 是一个基于 AutoGLM 框架开发的可视化网页工具,旨在帮助用户快速实现自然语言任务的自动化处理。通过该平台,用户无需编写代码即可完成文本生成、分类、摘要等常见 NLP 任务。访问与登录 打开浏览…

作者头像 李华
网站建设 2026/1/22 15:25:54

PaddlePaddle民族乐器识别系统

PaddlePaddle民族乐器识别系统 在一场传统民乐演奏会上,一段未标注的音频片段被上传至后台系统——几秒钟后,AI自动识别出这是“琵琶轮指技法”演奏的《十面埋伏》选段,并同步生成频谱可视化图。这样的场景不再是科幻设想,而是基于…

作者头像 李华