你是否曾向AI提问,却只得到一个笼统的、甚至略显过时的答案?当你想规划一次复杂的跨国行程,或需要快速厘清一个新兴技术赛道时,简单的大模型问答,总让人觉得隔靴搔痒,深度与效率都远不如人意。
这背后,是当前大模型“压缩即智能”范式的根本局限。模型被训练成一座静态的“知识图书馆”,却难以应对这个每日产生EB级数据的鲜活世界。
但现在,一种新的范式正在突破这层天花板。它不再将模型视为知识的终点,而是将其重塑为一个强大的“信息中枢”——一个能自主调用工具、进行深度调查与复杂推理的研究伙伴。这就是 Deep Research(深度研究)。接下来,我们将一同探讨它的核心技术,看它如何从“简单应答”走向“深度探索”,改变我们与信息交互的方式。
一、背景梳理
从“压缩即智能”的Scaling law[1],到Densing Law[2] ,再到诸多常识QA的Benchmark,这些理论和实践都反映了大模型发展初期,人们对LLM的一种期盼:LLM应尽可能记住更多知识。
图1: “压缩即智能”观点的提出和论证
然而这种“压缩即智能”的范式正面临两大瓶颈:
| 1 | Scaling Law收益递减:模型规模必须呈指数级扩张,才能维持近似线性的性能增长。 图2: Scaling Law收益递减[3] |
| 2 | 知识永远落后:全球每日新增EB级的数据,靠压缩训练永远无法及时更新。 |
为了解决信息局限,RAG (检索增强生成)和 Web Search (在线搜索)应运而生。前者从静态的离线数据库中检索数据,后者从在线的互联网搜索信息。这两种技术带来了一个新视角:LLM不再是信息源,而是获取和整合外部信息的代理。
然而,RAG和Web Search流程简单,信息深度和广度都非常有限,它们只适用于简单Query,无法完成复杂的信息获取需求。真正的“深度研究”,是一个包含理解、规划、执行、评估、生成报告并提供引用的复杂过程。
图3: Deep Research多阶段工作流
于是,Deep Research技术因运而生。本文将深入拆解构建Deep Research最关键的两项技术:上下文工程和端到端训练。
图4: open deep research框架
[1] Kaplan, J., et al. Scaling Laws for Neural Language Models. ArXiv 2020.
[2] Xiao, C., et al. Densing Law of LLMs. ArXiv 2024.
[3] Hackenburg, K., et al. Scaling language model size yields diminishing returns for single-message political persuasion.PNAS 2025.
二、上下文工程
当智能体开始频繁调用多次工具,每次调用返回的“观察结果”都会追加到对话历史中,导致上下文长度爆炸式增长。这不仅带来高昂的计算成本,更会导致“上下文腐烂” (Context Rot)——随着上下文变长,模型性能反而下降。
图5: Context Rot现象
为了解决这一核心矛盾,上下文工程成为了Deep Research的关键技术。它旨在用“恰到好处”的信息填充上下文窗口,主要策略包括:
| 1 | **上下文卸载:**用文件系统管理上下文 将耗Token的工具输出(如整篇网页内容、长文档)转储到文件系统或数据库中,只在上下文中保留一个精简的引用或摘要。当需要细节时,再按需检索[1]。 图6: 上下文卸载示意图 |
| 2 | **上下文缩减:**智能的“摘要模式” 当上下文使用率达到阈值时,自动对历史对话、工具结果进行摘要或压缩。关键在于策略是“可恢复的”,例如保留 URL,即可在需要时重新获取完整内容[1]。 图7: 上下文缩减示意图 |
| 3 | 上下文隔离:多智能体架构避免污染 通过创建多个拥有独立上下文的子智能体,实现关注点分离。例如,一个“主智能体”担任项目经理,负责统筹,将具体的搜索、编码任务分配给不同的“子智能体”。这样,一个任务中的错误信息就不会像病毒一样污染整个研究过程。 图8: 上下文隔离示意图 |
| 4 | 上下文缓存:极大优化推理成本与速度 观察发现,Deep Research的输入上下文很长,但输出(如函数调用)很短,存在约100:1的Token失衡。通过稳定的提示词前缀和KV缓存技术,可以大幅降低首次Token生成时间(TTFT)和推理成本。一个关键技巧是:避免在系统提示开头使用可变信息(如时间戳),只在末尾追加新上下文信息,以维持缓存命中率[2,3]。 图9: 上下文缓存示意图 |
[1] Xu, F., et al. RECOMP: Improving Retrieval-Augmented LMs with Compression and Selective Augmentation. ArXiv 2023.
[2] Wan, Z., et al. LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference. EMNLP 2024.
[3] Hooper, C., et al. KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization. ArXiv 2024.
三、端到端训练
如果只是教模型使用单个工具,监督微调(SFT)或许足够。但对于需要多步规划、动态调整的深度研究任务,SFT 会陷入“局部最优”,且难以适应工具的变化。因此,端到端的强化学习(RL)训练 成为实现全局最优的关键,目前业界的Deep Research产品的实现大多是基于端到端训练的。
为什么SFT不够,需要端到端RL?主要有4点原因。
| 1 | **决策链条:**SFT优化的是单步操作,容易造成局部最优。RL则能通过最终奖励反向优化整个决策链,追求全局最优。 |
| 2 | **泛化能力:**基于SFT的固定工作流,遇到新场景或中间错误时容易崩溃。RL训练出的是动态策略,能根据实时反馈灵活调整。 |
| 3 | **探索能力:**SFT的上限被标注数据锁死。RL则鼓励探索未知策略,有可能发现比训练数据更优、更高效的解决方案。 |
| 4 | **优化目标:**Deep Research的目标(如报告质量)通常较为模糊、难以量化。RL可以直接针对人类偏好或高阶模型打分进行对齐。 |
下面我们将具体介绍通义Deep Research[1]的实现方案。
图10: 通义Deep Research性能对比
通义Deep Research的训练分为四个阶段:
Agentic CPT 1 → Agentic CPT 2
→ Agentic SFT → Agentic RL
图11: 通义Deep Research训练的4个阶段
分别是两个增量预训练阶段,一个监督微调阶段,和一个强化学习阶段。
阶段1&2:Agentic CPT (增量预训练)
目标:为后续的Post-training打造一个Agent基座模型。让模型具备遵循Agent指令的基础能力,为SFT和RL做准备。
**数据:**通义设计了一套支持大规模持续扩展的预训练数据合成方案AgentFounder:
图12: 数据合成方案AgentFounder
对于推理链中的每一步都进行多步的推理和扩展,再从每一步的proposals中进行筛选和选择。从而在一个推理树中筛选出高质量的推理轨迹。两个预训练阶段,仅仅是上下文长度的区分。
阶段3:Agentic SFT (指令微调)
**目标:**为RL阶段做“冷启动” (Cold Start)。
**数据:**通义提出了一个名为WebFrontier的多智能体三阶段数据合成Workflow:
图13: 三阶段数据合成Workflow
- 第一阶段:构造种子QA。首先,从网页、论文等语料库中,由Agent生成基础的种子QA对。
- 第二阶段:迭代提升复杂度:这是最关键的一步。Agent会配备多种工具(网页搜索、学术检索、代码解释器等),对种子QA进行迭代优化,操作包括知识扩展 、概念抽象 、事实校准 等。
- 第三阶段:数据质量检查:首先,让一个无工具的Agent (QuestionSolver Base) 尝试回答。能答对的,说明问题复杂度过低,即被丢弃 。然后,让一个有工具的Agent (QuestionSolver Advanced) 回答剩余难题。能答对的,被视为高价值的复杂推理数据;答错的,则被丢弃或人工复核。
这套数据构建流程可以获得高复杂性、事实准确性、可验证的SFT数据。
阶段4:Agentic RL (强化学习)
算法设计:
- 采用严格的On-Policy训练,确保学习信号始终与模型当前能力匹配。
- 为降低方差,采用留一法 (leave-one-out) 策略来估计Advantage。
- 负样本控制:未经筛选的负样本(如因过长而未生成最终答案的样本)会严重影响训练稳定性,因此被选择性地排除在损失计算之外。
Infra设计:
- 完全离线的仿真训练环境:离线维基百科,避免了Api的不稳定性。
- 实时优化数据:通过全自动数据合成和训练状态动态调整训练集。
- 双环境策略:模型先在模拟环境中作快速迭代,再应用到真实环境。
图14: Infra设计
Agentic框架 (IterResearch):
- 这是通义DeepResearch的底层Agentic框架,其核心思想与我们第一部分讲的“上下文工程”完美呼应。
- 它将Agent的思考过程分为两部分:一个不断更新的核心研究报告 (Report_i) 和一个工作空间 (Workspace_i)(包含工具调用结果)。
- 最关键的步骤叫“重构” (reconstruction):在每一轮开始时,系统会基于上一轮的核心报告和工具反馈,重新构建一个精简后的Workspace。
- 这种机制有效防止了上下文爆炸,实现了持续性推理与长期研究能力 。
图15: IterResearch Agentic框架
应用成果:
这套复杂的系统已经落地到实际产品中,例如高德地图的助手“小高老师”,用于处理复杂查询,以及“通义法睿”中的法律Deep Research功能。
图16: 高德地图助手“小高老师”
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。