LangGraph加持的DeerFlow：多智能体协作研究解析-开发者社区

LangGraph加持的DeerFlow：多智能体协作研究解析

如果你正在寻找一个能帮你自动完成深度研究、生成专业报告、甚至制作播客的AI助手，那么DeerFlow绝对值得你花时间了解。它不是一个简单的聊天机器人，而是一个由多个AI智能体组成的“研究团队”，背后驱动这个团队高效协作的核心，就是LangGraph。

今天，我们就来深入解析DeerFlow的“大脑”——它的LangGraph工作流。我会带你一步步拆解这个多智能体系统是如何运作的，每个“员工”（节点）负责什么工作，他们之间又是如何配合，最终把一个模糊的研究问题，变成一份结构清晰、内容详实的报告。

1. DeerFlow与LangGraph：当研究遇上智能体协作

在开始技术细节之前，我们先搞清楚DeerFlow到底是什么，以及LangGraph在其中扮演的角色。

DeerFlow是字节跳动开源的一个深度研究框架。你可以把它想象成你的个人研究助理团队。当你提出一个问题，比如“分析一下比特币最近的价格走势”或者“总结医疗AI的最新进展”，DeerFlow会调动它的“员工们”去搜索资料、分析数据、编写代码，最后给你生成一份完整的报告，甚至还能把报告转换成语音播客。

LangGraph则是构建这个团队协作流程的“项目管理工具”。它来自LangChain生态，专门用来创建有状态、可循环的AI智能体工作流。在DeerFlow里，LangGraph定义了一套清晰的规则：谁在什么时候做什么，做完之后交给谁，如果遇到问题该怎么处理。

简单来说：

DeerFlow= 你要达成的目标（自动化的深度研究）
LangGraph= 实现这个目标的协作流程和规则
各个节点= 流程中具体干活的“员工”

理解了这层关系，我们就能明白，分析DeerFlow的核心，就是分析它的LangGraph工作流是如何设计的。

2. 核心架构：一个状态驱动的协作图

DeerFlow的整个工作流是围绕一个核心的“状态”（State）来运转的。这个状态就像一个共享的工作白板，记录了当前的研究进度、用户的问题、收集到的资料、生成的计划等等。所有节点都读取和更新这个状态，从而实现协作。

让我们先看看这个工作流图的全貌，它清晰地展示了各个节点之间的跳转关系：

# 工作流构建的核心代码（简化版） def _build_base_graph(): builder = StateGraph(State) # 以State为蓝图构建图 # 添加所有节点（即各个“员工”岗位） builder.add_node("coordinator", coordinator_node) # 协调员 builder.add_node("background_investigator", background_investigation_node) # 背景调查员 builder.add_node("planner", planner_node) # 规划师 builder.add_node("reporter", reporter_node) # 报告员 builder.add_node("research_team", research_team_node) # 研究团队调度员 builder.add_node("researcher", researcher_node) # 研究员（负责搜索） builder.add_node("coder", coder_node) # 程序员（负责数据处理） builder.add_node("human_feedback", human_feedback_node) # 人工反馈接口 # 设置工作流的起点和终点 builder.add_edge(START, "coordinator") # 从协调员开始 builder.add_edge("reporter", END) # 报告员结束流程 return builder

这个图定义了8个核心节点，它们共同组成了一个完整的研究流水线。工作总是从coordinator（协调员）开始，最终由reporter（报告员）产出结果。

那么，这些节点之间具体怎么连接呢？这由每个节点的返回值决定。每个节点完成任务后，都会说“接下来请某某同事处理”，这个指令就是Command(goto="下一个节点")。LangGraph会根据这个指令，把状态（白板）交给下一个节点。

3. 节点深度解析：每个“员工”的职责与协作

现在，我们挨个认识一下这个研究团队里的每一位“员工”，看看他们具体做什么，以及如何与同事配合。

3.1 coordinator_node：你的前台与调度中心

职责：这是你与DeerFlow交互的第一个接触点。它的核心工作是理解你的意图（比如识别语言是中文还是英文），然后决定整个研究流程的起点。

工作流程：

接待用户：读取你最新提出的问题（state["messages"][-1].content）。
分析意图：调用大语言模型（LLM），判断是否需要立即开始规划，还是先进行背景调查。
调度决策：根据配置和LLM的建议，决定下一步是派给planner（规划师）还是background_investigator（背景调查员）。

关键代码逻辑：

# coordinator_node 的核心调度逻辑 if len(response.tool_calls) > 0: goto = "planner" # 默认去规划师那里 # 如果系统配置了需要先做背景调查，则改派背景调查员 if state.get("enable_background_investigation"): goto = "background_investigator"

协作关系：它只与planner和background_investigator直接连接，是工作流的“发起者”。

3.2 background_investigation_node：快速的情报收集员

职责：在正式制定详细研究计划前，先到网上快速搜集一下关于你问题的基本信息。这相当于在写论文前先看看维基百科，有个大体印象。

工作流程：

执行搜索：使用Tavily搜索引擎，以你的问题为关键词进行网络搜索。
整理摘要：提取搜索结果的标题和内容摘要。
传递情报：将整理好的背景信息以JSON格式保存到状态中，然后交给planner。

协作关系：它的工作是为planner提供信息铺垫，让规划师能在知情的情况下制定更合理的计划。

3.3 planner_node：项目的总设计师

职责：这是整个流程的“大脑”。它需要基于你的问题和收集到的背景信息，制定一份详细的研究执行计划。这份计划要回答：研究分几步？每步做什么？由谁做？

工作流程：

接收输入：获取用户问题和背景调查结果（如果有）。
生成计划：调用LLM，生成一个结构化的研究计划。这个计划包括研究步骤（steps），每个步骤有类型（是RESEARCH搜索还是PROCESSING数据处理）、标题和描述。
判断信息是否充足：LLM会判断当前信息是否足够直接生成报告（has_enough_context字段）。如果足够，就跳过执行，直接去写报告。
迭代与反馈：如果信息不足，它会将初步计划呈现给human_feedback节点（你）确认或修改。这个过程可以重复多次（max_plan_iterations控制）。

关键决策逻辑：

# planner_node 判断下一步去哪 if curr_plan.get("has_enough_context"): # 如果信息已足够 goto = "reporter" # 直接去写报告 else: # 如果信息不足，需要执行研究步骤 goto = "human_feedback" # 先让人（或自动）确认一下计划

协作关系：它与human_feedback和reporter直接相连，是承上启下的核心枢纽。

3.4 human_feedback_node：确保计划不跑偏的检查点

职责：在自动化流程中插入一个“人工确认”环节。你可以审阅planner生成的计划，选择接受、修改或终止。

工作流程：

展示计划：将规划师生成的计划展示给你。
等待指令：你可以在Web界面上看到计划，并给出反馈。
解析反馈：
- 如果你回复[EDIT_PLAN]...，它会带着你的修改意见回到planner。
- 如果你回复[ACCEPTED]，它会批准计划，继续往下走。
自动跳过：如果系统配置了auto_accepted_plan=True，则会自动跳过人工确认。

协作关系：它是连接人类用户和自动化流程的桥梁，确保最终的研究方向符合你的预期。

3.5 research_team_node：研发部门的项目经理

职责：不直接做研究，而是调度具体的执行人员。它检查当前计划，决定下一个该执行的具体任务由researcher还是coder来完成。

工作流程：

检查计划状态：查看current_plan中的步骤列表。
分配任务：找到第一个还未执行的步骤，根据其类型（StepType.RESEARCH或StepType.PROCESSING），将其分配给对应的专家节点。
推动流程：如果所有步骤都执行完了，就返回planner，告知任务完成，可以进入报告阶段。

关键调度逻辑：

# research_team_node 的任务分配逻辑 for step in current_plan.steps: if not step.execution_res: # 找到第一个未执行的步骤 break if step.step_type == StepType.RESEARCH: return Command(goto="researcher") # 派给研究员 elif step.step_type == StepType.PROCESSING: return Command(goto="coder") # 派给程序员

协作关系：它指挥researcher和coder干活，并向planner汇报进度。

3.6 researcher_node 与 coder_node：一线执行专家

这两个节点是真正的“干活的”，它们共享一套相似的执行框架。

researcher_node（研究员）：擅长从网上找信息。它被赋予了网络搜索（web_search_tool）和网页抓取（crawl_tool）的能力，专门执行计划中标记为RESEARCH的步骤。
coder_node（程序员）：擅长处理数据。它被赋予了Python代码执行（python_repl_tool）的能力，专门执行计划中标记为PROCESSING的步骤，比如数据分析、图表生成。

它们的共同工作流程（通过_setup_and_execute_agent_step辅助函数）：

工具准备：根据配置，动态加载可用的工具。这里有一个强大功能是支持MCP（Model Context Protocol），可以接入外部服务器提供的更多工具（比如数据库查询、内部API等）。
创建智能体：用指定的工具创建一个专用于当前任务的AI智能体。
执行任务：智能体读取任务描述，使用工具完成任务，并将结果（如搜索到的资料、代码运行结果）写回到步骤中，同时保存到总的观察列表（observations）里。

协作关系：它们从research_team接收任务，执行完毕后都返回research_team，等待下一个任务分配。

3.7 reporter_node：最终的成果整合师

职责：收集所有前期工作的成果——即planner的最终计划和researcher/coder执行产生的所有observations——将它们整合成一份格式规范、内容完整的最终报告。

工作流程：

汇总材料：获取研究计划（标题、核心思想）和所有执行步骤的观察结果。
应用报告模板：使用专门为报告员设计的提示词模板，要求LLM按照特定格式（概述、详细分析、关键引用等）组织内容。
特别强调格式：会额外提醒LLM：
- 使用Markdown表格来呈现对比数据，让报告更清晰。
- 引用集中放置：不要在正文里用[1]这样的标注，而是把所有参考来源统一放在最后的“关键引用”部分，用列表形式呈现。
生成报告：调用LLM，生成最终的final_report，并保存在状态中，标志着整个工作流的结束。

协作关系：它是流程的终点，接收来自planner或human_feedback的指令，产出最终价值。

4. 从理论到实践：一个完整的研究请求如何被处理

为了让你更直观地理解，我们模拟一个请求“分析2024年主流AI编程助手的优缺点”在DeerFlow中的旅程：

你在Web界面提问：“分析2024年主流AI编程助手的优缺点”。
coordinator接待你，识别为中文请求，并决定启动流程。由于配置了背景调查，它把任务派给background_investigator。
background_investigator快速用Tavily搜索“2024 AI 编程助手”，得到一些概览文章，把摘要存起来。
planner收到问题和背景摘要，开始思考。它可能制定这样一个计划：
- 步骤1 (RESEARCH)：搜索并列出2024年最受关注的5个AI编程助手（如GitHub Copilot、Amazon CodeWhisperer等）。
- 步骤2 (RESEARCH)：针对每个助手，搜集其核心功能、定价、支持语言等信息。
- 步骤3 (PROCESSING)：将搜集到的信息整理成对比表格。
- 步骤4 (RESEARCH)：搜索这些助手的用户评价和专家分析。
- 步骤5 (PROCESSING)：基于以上信息，总结各自的优缺点和适用场景。
- 结论：信息已足够，has_enough_context设为True。
human_feedback（如果未自动跳过）将这份计划展示给你。你看了觉得不错，点击“接受”。
research_team开始调度。它看到步骤1是RESEARCH类型，派给researcher。
researcher执行步骤1，使用搜索工具找到相关列表，将结果保存。
research_team再次被触发，看到步骤1已完成，步骤2是RESEARCH，再次派给researcher。
researcher执行步骤2，搜集每个助手的详细信息。
research_team看到步骤2完成，步骤3是PROCESSING，派给coder。
coder执行步骤3，可能写一段Python代码来格式化数据，生成一个漂亮的Markdown表格。
... 如此循环，直到所有步骤完成。
research_team发现所有步骤都执行完了，便返回planner。
planner发现计划已执行完毕且has_enough_context为真，于是跳转到reporter。
reporter登场。它拿到了完整的计划（标题、描述）和前面所有步骤产出的observations（列表、详细信息、表格、评价等）。它按照严格的报告格式，调用LLM生成了一份包含概述、详细对比表格、优缺点分析和完整引用列表的最终报告。
你在界面上收到了这份结构清晰、内容详实的研究报告。

5. 总结：DeerFlow的设计哲学与价值

通过拆解LangGraph的各个节点，我们可以看到DeerFlow作为一个多智能体研究框架的巧妙之处：

1. 模块化与职责分离：每个节点功能单一、边界清晰。协调、规划、搜索、编码、报告各司其职，这种设计使得系统易于理解、调试和扩展。如果你想增强搜索能力，只需要改进researcher节点或给它更好的工具。

2. 状态驱动的协作：整个系统围绕一个共享的State运转，避免了智能体之间的混乱通信。状态就像一份不断更新的项目文档，记录了从问题到答案的全过程。

3. 灵活的可控性：通过human_feedback节点和enable_background_investigation、auto_accepted_plan等配置，系统在自动化和人工控制之间取得了平衡。对于重要研究，你可以介入审核计划；对于常规任务，则可以全自动执行。

4. 对工程落地的友好支持：支持MCP协议意味着它能轻松集成企业内部的工具和数据源，不再局限于公开网络搜索。报告格式的强制要求（如使用表格、集中引用）确保了产出物的专业性和可直接使用性。

5. 循环与迭代能力：基于LangGraph的循环图特性，计划可以多次迭代（plan_iterations），研究人员可以反复搜索和加工信息，直到满足生成高质量报告的条件。

总而言之，DeerFlow + LangGraph的组合，为我们提供了一个构建复杂、可靠、可解释的多智能体应用的优秀范本。它不仅仅是技术的堆砌，更是对“如何让多个AI智能体像团队一样工作”这一工程问题的深刻思考和优雅解答。对于开发者而言，理解其架构，不仅能更好地使用它，更能从中汲取设计理念，用于构建属于自己的智能体系统。