这几年,大模型能力跃迁:它们能写代码、能回答问题、能规划步骤,甚至能代替我们做一些思考。
模型越来越聪明, 但只要把事情落到“数据”上,一切又回到了原点:
数据必须先被连接
数据必须被清洗
数据必须被组织成模型能理解的结构
从外部看,这似乎是一个技术差距;但实际上,它指向一个更基本的问题:
为什么我们能用自然语言与一个大模型对话,却无法用自然语言让它完数据准备?
于是,“数据准备”成了企业 AI 项目最现实也最尴尬的瓶颈。
大模型数据准备的难点,不来自技术,而来自沟通
数据准备其实并不抽象。几乎每一个数据需求,都可以被一句普通的自然语言描述清楚:
“我想把这些文本转化成结构化信息。”
“帮我收集“ 医疗 ”相关的数据,并且清洗,去重,过滤,合成 QA 对”
“我想过滤文本的 URL 和 HTML 标签”
但问题是:自然语言能描述需求,却不能直接变成可执行的数据工程。
于是现实中永远发生这种割裂:业务语言工程实现需求被自然语言描述需求必须被翻译成代码意图是模糊的、连续演化的实现是严格的、结构化描述对话能表达 95% 背后的逻辑代码要覆盖 100% 的执行细节。
真正的问题浮现:
为什么我们可以用对话定义复杂的模型推理,却不能用对话定义模型数据准备?
当这两种能力的差距被对比到一起,问题就变得非常清晰:
我们缺少一个能从自然语言 → 数据逻辑→ 数据算子 → 可执行管线→ 可迭代对话串在一起的系统。
这,就是 DataFlow-Agent 为什么而来,不是为了给企业一个新的工具,而是为了回答这一个问题: 为什么大模型数据准备不能像对话一样自然?
想解决这个问题,背后的工程实现具有极大的挑战性。但值得庆幸的是,我们开发的 DataFlow 已经打好了数据准备的基础 ,它由先进算子(Operators)与多阶段数据处理流水线(Pipeline) 组成,旨在对诸如 PDF 文档、纯文本、爬虫数据等低质量而嘈杂的数据进行 修正、扩增、评估与过滤(refine, generate, evaluate, filt) 以得到高质量的训练数据。目前,团队已经开发了 120+通用/专用算子,以及多条开箱即用的 pipeline。
接下来,是时候再思考“数据工程的入口”应该是什么。
一、什么是 DataFlow-Agent
DataFlow-Agent 是一个围绕模型训练数据准备「数据流 / 工作流」构建的智能 Agent 框架,它的目标非常直接:
- 把复杂的自然语言任务拆分为一系列可组合的Node / Tool / Workflow;
- 通过统一的
BaseAgent抽象与多种执行模式(Simple / ReAct / Graph / VLM),让 Agent 能够在不同场景下稳定地执行任务; - 支撑上层的 Gradio 前端、流水线编排、图式工作流等多种使用方式。
换句话说,它不是一个新的 ETL (提取-转换-加载)工具,也不是一个简单的 LLM wrapper,而是一个让“对话即数据工程”成为可能的执行层。
面向数据任务的智能体体系
DataFlow-Agent 是一个专门为数据任务构建的智能体系统,通过多个可协作的角色来理解任务、拆解意图并生成可执行的数据流。它不是简单的大模型包装,而是一组具有特定职责的 Agent,例如负责规划工作流的 PipelineBuilder、负责分类意图的 Classifier、负责生成算子的 Writer 等。这些角色共享统一的基础抽象,使得系统可以在不同类型的数据任务中稳定工作。对于用户而言,DataFlow-Agent 更像是一个能“听懂数据需求并自动操作”的智能团队。
基于状态驱动的多轮执行机制
为了处理数据任务的连续性,DataFlow-Agent 引入了统一的 State 体系。所有中间步骤、节点信息、上下文数据、意图变化都会保存在状态对象中,使得 Agent 能够在多轮对话中保持完整上下文。如果用户希望修改前一步逻辑、调整 workflow 结构或细化算子行为,系统能够基于当前状态无缝继续推进任务。这种状态驱动的机制,使数据准备从一问一答式的生成,变成可持续演化的协作过程。
多策略推理,让任务执行更加可靠
DataFlow-Agent 将执行方式抽象为多种策略,包含 Simple、ReAct、Graph 和 VLM。不同任务复杂度对应不同执行路径:
简单任务用 Simple 即可完成,而涉及多步骤推理的任务则使用 ReAct;
需要构建与调整工作流结构时,由 Graph 策略发挥作用;
涉及图像、文档截图等场景时,则切换到 VLM。
这种策略化设计让模型的能力变得可控、可插拔,并能够在不同类型的数据任务间获得更高的稳定性。
由 Node、Tool 与 Workflow 构成的数据流表达方式
DataFlow-Agent 的底层是“可组合的数据流”,自然语言描述的任务会被自动拆解为“子意图”,例如清洗、转换、合并或写入数据库等被 DataFlow 分析检索映射到对应的算子,最终形成可运行且可解释的数据流图。这样,用户只需描述“想做什么”,系统就会生成“要怎么做”的可执行计划,同时支持随时增删节点或修改逻辑。
插件化与可扩展架构,使系统能够持续生长
DataFlow-Agent 通过插件化机制允许开发者为系统不断扩展新能力。任何新的算子、工具、角色或 workflow 都可通过装饰器注册并被框架自动识别,无需修改核心代码。这样的结构让 DataFlow-Agent 不会随着场景增长而僵硬,而能够像生态系统一样不断变得更强。这种扩展性使其适合长期演进的数据场景,也使企业可以根据自身需求定制能力。
二、DataFlow-Agent 核心功能
DataFlow-Agent 提供了一套围绕数据任务生命周期的智能化能力,核心由 5 类 Agent 组成:Pipeline 构建、算子编写、算子复用、QA 多轮问答、与 Web 数据采集。它们共同构成从“用户意图 → 可执行 Pipeline → 运行与调试”的完整闭环。
- Agent-NL2Pipeline:从用户意图自动生成数据处理 Pipeline
Agent-NL2Pipeline 的目标是把用户用自然语言描述的需求转化为结构化的数据处理流程(pipeline),你可以将它看作是流水线指挥官。
核心步骤包括:
解析用户意图 :理解用户自然语言描述的任务需求,即意图 。
DataFlow 算子编排 :根据需求拆解子意图,自动规划需要哪些算子与步骤。
Pipeline 推荐:生成候选的 Pipeline 结构,并给出可解释的任务分解。
自动执行与调试:运行 Pipeline 并根据结果进行必要的 refine。
数据处理 Pipeline 输出:得到可复用、可部署的完整流程。
适用于数据治理、数据清洗、特征生成、RAG 数据构建等场景。
- Agent-NL2Operator:自然语言生成新算子(Operator)
当你发现现有算子无法满足需求时,可通过 Agent-NL2Operator 使用自然语言描述自动生成新的算子逻辑。其主要能力包括:
理解用户需求:识别算子的输入、输出与处理逻辑。
新算子编写:自动生成符合 DataFlow 规范的算子代码。
自动调试:通过示例数据自动验证算子是否运行正确。
算子交付与复用:新算子可直接注册到工具链中,之后自动参与 pipeline 生成。
这让 DataFlow-Agent 能够不断扩展功能,而无需人工手写算子,提升了效率。
- Agent-算子复用 : 算子级提示词优化
在使用算子的过程中,你可能会发现有的算子很好用,想把它迁移到其他场景,这时就会需要 Agent-算子复用的功能。由于 DataFlow 算子是由 LLM 驱动的(例如结构化抽取、文本清洗、标签生成),其效果依赖提示词(Prompt)。也就是说,你可以通过修改算子的 prompt 模板来复用算子,而不需要生成新的算子。
Agent-算子复用的工作流程是:
读取并理解用户需求与业务上下文。
根据需求自动生成更高质量、更稳定的 Prompt生成或改写提示词。
新的 prompt 替换算子内部的 Prompt,确保算子运行逻辑被即时更新并保持可控性。
最后形成新的符合用户需求的算子版本。
这实现了“算子级 Prompt Engineering 自动化”。
- WebAgent:从网络到数据流的自动采集与清洗
当用户没有合适的训练数据,或者自己找到的数据信息过于杂乱,无从下手的问题。那么 WebAgent 就可以派上用场,帮助用户处理涉及外部数据源的任务。WebAgent 的工作流程如下:
接受用户需求
网页爬取:自动访问页面或 API
数据集下载:获取相关资源或文档进行下载
数据格式处理:将网页数据转为适合模型训练的 jsonl 格式,并经由其它的 DataFlow 算子进一步优化
输入 DataFlow:最终生成可直接用于数据处理 pipeline 的数据
- QA-Agent:面向算子与系统的对话式问答能力
QA-Agent 是 多轮交互的问答型 Agent ,它支持用户围绕 DataFlow 算子进行直接对话,例如:
用户可以询问“ 我想过滤掉缺失值,用哪个算子? ”,Agent 会推荐合适的算子;
用户可以追问“ df.filter_by 是干嘛的? ”,Agent 会解释算子的功能和使用场景;
用户还可以进一步询问算子参数含义,例如“ 这个算子的 run 函数里的参数是什么意思? ”。
通过这种方式,QA-Agent 把原本分散在文档、代码和示例中的知识,转化为 可对话、可追问、可解释的系统能力 , 降低了 DataFlow 的使用门槛 ,让用户可以通过自然语言理解和探索系统能力。
这使 DataFlow-Agent 能够从用户一句自然语言开始,到构建、执行并调试完整数据流程,实现真正的“对话即数据工程”。
三、场景示例
例如, 使用 DataFlow-Agent 生成针对医学数据的 pipeline,对 Agent 的需求如下:
对医疗场景原始题干进行同义改写,生成语义一致但表达不同的新问题,提升训练样本多样性。
对医疗题干进行临床细节扩充,在不影响考点的前提下插入合理病史、体格检查或辅助检查结果,增强问题真实性,并可调节题目难度。
自动生成从题干到标准答案的推理过程(思维链/Chain-of-Thought),提升模型的推理能力和可解释性。
为医疗多项选择题生成医学迷惑性的干扰选项,使错误选项更具迷惑性,提升模型判别难度。
Pipeline 生成过程如下图所示:
四、 结语:让数据工程回到它本来的样子
当我们回头再看整个数据准备流程,会发现它从来就不是一套冷冰冰的技术链路,而是一段从需求到实践不断演进的对话:人表达意图,工具响应操作,结果再反馈给人,新的想法又由此产生。过去的数据系统之所以显得沉重,不是因为任务本身复杂,而是因为这些自然的对话被迫拆散,散落在脚本、算子、文档、工具和沟通成本之间。
DataFlow-Agent 正是试图把这些被技术打断的对话重新连起来。
它让自然语言重新成为数据工程的入口,让节点与算子成为任务的表达方式,让 Workflow 成为逻辑与执行之间的桥梁,也让多轮协作重新回到数据准备的日常节奏中。它不是试图替代数据工程,而是让数据工程回到它原本的形态——一个清晰、连续、可解释、可协作的过程。
在这个模型能力不断跃迁的时代,我们更需要的是一种能够承载变化的机制,一种即便需求模糊、场景复杂、逻辑分散,也能不断把它们重新组织、重新表达、重新执行的方式。DataFlow-Agent 不是终点,它是一种重新开始的方法;不是一个固定的系统,而是一个会随着任务生长、随着场景扩展、随着对话演化的智能层。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。