训练模型缺数据吗？北大团队开源首个LLM驱动数据工厂-开发者社区

数据质量决定了模型智能的上限，而DataFlow将数据准备从手工作坊升级为了自动化工厂。

北京大学、上海人工智能实验室等机构联合推出DataFlow框架。

面对大语言模型开发中数据处理流程碎片化、脚本混乱、难以复现的行业痛点，DataFlow提出了一个统一的、可编程的、由LLM驱动的数据准备系统。

它不仅提供了类似PyTorch的编程体验，还引入了Agent（智能体）来自动构建数据流水线。

实验结果显示，仅使用DataFlow生成的1万条高质量合成数据，在数学、代码等领域的表现就能超越包含100万条数据的开源数据集Infinity-Instruct，证明了在数据中心AI时代，精准的合成与优化远胜于盲目的数据堆砌。

数据准备范式的系统性重构

在大语言模型的开发周期中，数据准备往往是被低估却最耗时的环节。

传统的处理方式通常是一堆杂乱无章的Python脚本、Shell命令和临时的清洗规则。

这种作坊式的作业模式缺乏统一的抽象，导致数据处理流程难以复现、难以扩展，更无法有效地进行模块化复用。

现有的工具如NVIDIA的NeMo Curator或Data-Juicer，虽然在大规模数据过滤和提取方面表现优异，但它们的设计初衷更多是为了清洗现有的海量数据，而不是合成或精炼新的高质量数据。

随着模型能力的提升，简单的过滤已经无法满足需求，行业正在向模型环内（Model-in-the-loop）的生成式数据准备转型。

DataFlow正是在这种背景下诞生的。

它的核心愿景是将数据准备过程标准化、代码化。就像PyTorch定义了深度学习模型的构建方式一样，DataFlow定义了数据流的构建方式。

DataFlow的设计哲学围绕六个核心目标展开：易用性、可扩展性、统一范式、高效能、智能自动化和开源精神。

它并没有试图发明一种复杂的配置文件格式，而是采用了开发者最熟悉的Python代码优先策略。这意味着你可以像写模型代码一样，利用IDE的自动补全、跳转和调试功能来开发数据处理流程。

系统架构上，DataFlow构建了四个支柱：全局存储抽象、分层编程接口、算子（Operator）分类体系以及扩展机制。

全局存储抽象是整个系统的基石。

LLM处理的数据通常是指令、回复、思维链（CoT）等非结构化文本，但在处理过程中，我们需要一种结构化的方式来管理它们。

DataFlow采用了一种统一的表格化表达（基于Pandas），所有的算子都通过统一的read和write接口与存储层交互。

这种设计将数据管理与算子逻辑解耦，使得算子本身不需要关心底层是存放在本地文件、对象存储还是数据库中。

在编程接口方面，DataFlow采用了分层设计。

最底层是LLM服务API，它屏蔽了不同推理后端（如vLLM、SGLang）和在线API（如GPT-4、Gemini）的差异，为上层提供统一的调用入口。中间层是算子和Prompt模板，最上层则是流水线（Pipeline）。

这种类似PyTorchnn.Module的模块化设计，使得算子可以像乐高积木一样被自由组合。无论是文本生成、质量评估，还是基于规则的过滤，都被封装在统一的接口之下。

DataFlow目前已经内置了近200个可复用的算子，并根据功能将其严格划分为四类：生成（Generate）、评估（Evaluate）、过滤（Filter）和精炼（Refine）。

这种分类不仅是为了整洁，更是对应了生成-评估-过滤-精炼这一核心的数据合成范式。

通常一个流水线会先通过生成算子扩展数据规模，然后通过评估和过滤算子剔除劣质数据，最后通过精炼算子提升数据质量。

为了支撑这个庞大的算子生态，DataFlow还设计了灵活的扩展机制。

开发者可以通过Python包的形式发布自己的算子、模板和流水线，形成了DataFlow-Ecosystem。

配合命令行工具（CLI），用户可以快速脚手架化一个新的扩展项目，极大地降低了社区贡献的门槛。

下表直观地对比了DataFlow与现有主流系统的差异：

可以看出，DataFlow在LLM深度集成、编程模式和自动化程度上都做出了显著的差异化设计。

它不再是一个单纯的数据清洗工具，而是一个数据合成与优化的生产平台。

由Agent驱动的智能化流水线构建

如果说模块化设计降低了编写数据流水线的门槛，那么DataFlow-Agent则试图消除这一门槛。

在实际应用中，设计一个高效的数据处理流水线需要深厚的领域知识。用户需要知道用什么算子、怎么组合、参数如何设置。为了解决这个问题，DataFlow引入了一个基于LangGraph构建的智能编排层——DataFlow-Agent。

DataFlow-Agent不是一个简单的问答机器人，而是一个多Agent协作系统。

它能够将用户的自然语言需求转化为可执行的Python代码流水线。这个过程并非一蹴而就，而是通过严密的逻辑分工完成的。

首先，意图分析Agent（Intent Analysis Agent）接收用户的自然语言指令，将其拆解为一系列可执行的子意图。

同时，数据路由Agent（Data Routing Agent）会分析用户上传的数据样本，确定任务类型。如果没有数据，它甚至会生成模拟数据来辅助后续的调试。

接下来进入核心的算子合成阶段。算子检索Agent（Operator Retrieval Agent）会利用RAG（检索增强生成）技术，在DataFlow的算子库中寻找匹配的组件。

如果现有的算子不能满足需求，算子合成Agent（Operator Synthesis Agent）会根据上下文自动编写新的算子代码，并进行单元测试。

这里体现了DataFlow-Agent的检索-复用-合成策略。

它优先复用现有组件，其次尝试复用Prompt模板，最后才选择从头生成代码。这种策略极大地提高了生成的稳定性和可靠性。

当所有算子准备就绪后，流水线构建Agent（Pipeline Construction Agent）将它们组装成一个有向无环图（DAG）。

但这还不是终点，流水线验证Agent（Pipeline Verification Agent）会在沙箱环境中试运行这个流水线。如果遇到报错，它会自动调整参数或连接关系，进行自我修复，直到流水线能够成功运行。

最后，结果报告Agent（Result Reporting Agent）会生成一份详细的报告和最终的可执行代码交付给用户。

这种自动化的构建方式，让没有任何DataFlow编程经验的用户，也能通过一两句自然语言描述，构建出包含数据加载、大模型生成、质量校验和格式转换的复杂流水线。它将数据准备的工作流从手写代码提升到了意图驱动的层面。

从用户查询开始，经过意图拆解、算子合成、流水线组装，最终通过验证环节输出成品。这一架构展示了Agent在软件工程领域尤其是数据工程领域的巨大潜力。

覆盖全域的六大核心流水线

DataFlow不仅仅是一个框架，它还自带了六套达到SOTA（State-of-the-Art）水平的标准流水线，覆盖了文本、数学、代码、Text-to-SQL、Agentic RAG和知识抽取等关键领域。

这些流水线不仅是演示Demo，更是经过实战检验的高效数据生产工具。

Text-to-SQL（文本转SQL）任务一直是LLM的难点，特别是面对复杂的数据库结构和逻辑时。DataFlow设计了两条流水线：生成流水线和精炼流水线。

生成流水线从零开始。它首先利用SQL Generator算子，根据数据库的Schema（表结构）生成各种复杂度的SQL语句。

为了保证多样性，算子会覆盖简单查询、嵌套查询、多表连接等多种模式。生成SQL后，SQL Execution Filter会尝试在真实数据库中执行这些SQL，只有能跑通且结果合理的才会被保留。

随后，Question Generator算子会看着这些SQL，反向生成对应的自然语言问题。

为了模拟真实用户的多样性，它会生成不同语气、不同清晰度的提问。Chain-of-Thought Generator则负责生成中间的推理步骤，教会模型如何一步步从问题推导到SQL。

最后，Prompt Generator将所有信息组装成训练数据。

精炼流水线则针对已有的低质量数据。

它引入了SQL Augmentor算子，通过改变查询结构、业务逻辑或引入高级SQL特性，对种子数据进行增强。同时，Text2SQL Consistency Filter会利用LLM判断问题和SQL是否语义一致，剔除文不对题的样本。

通过这套流程，DataFlow构建了包含9万条高质量数据的DataFlow-Text2SQL-90K数据集。

实验表明，仅用这9万条数据微调的模型，在Spider、BIRD等权威榜单上的表现，全面超越了使用250万条数据的SynSQL模型。这再次印证了数据质量优于数量的观点。

数学推理数据极其敏感，哪怕一个数字或符号的错误都会导致模型学到错误的逻辑。DataFlow的数学流水线特别强调验证。

它以NuminaMath作为种子数据集，利用o4-mini模型进行扩充。核心创新在于引入了MathQ-Verify模块。这个模块不仅仅是看答案对不对，它会检查题目本身是否存在逻辑漏洞、条件缺失或歧义。只有通过严苛验证的题目，才会进入下一步。

对于通过验证的题目，流水线会调用DeepSeek-R1模型生成详细的思维链（CoT）。这种强模型带弱模型的蒸馏思路，配合DataFlow严格的清洗机制，使得生成的10k数据在GSM8K和MATH榜单上取得了显著的性能提升。

代码数据的核心在于可执行性。DataFlow的代码流水线CodeGenDataset_APIPipeline在生成代码指令后，不仅仅是做静态文本分析，而是真正去执行代码。

它从Lingo-Coder-SFT中采样种子数据，生成新的代码指令。然后，利用沙箱环境运行这些代码，通过单元测试的通过率来过滤数据。这比传统的基于规则的过滤要精准得多。

实验显示，在HumanEval和MBPP等榜单上，使用DataFlow生成的代码数据训练的模型，比使用Code Alpaca和Self-OSS-Instruct等开源数据集的模型表现更好，平均提升幅度超过7%。

在检索增强生成（RAG）领域，简单的问题已经难不倒模型，真正的挑战在于多跳（Multi-hop）问答，即需要跨越多个文档片段才能找到答案。

DataFlow的Agentic RAG流水线从Wikipedia中随机抽取文档，剔除测试集中已有的内容以防止数据泄露。

然后利用模型生成多跳问题，并专门设计了一个验证模块，剔除那些逻辑错误、过于简单或答案直接泄露在单一文档中的问题。

最终生成的DataFlow-AgenticRAG-10k数据集，在HotpotQA和Musique等测试集上展现了极强的跨分布泛化能力，甚至优于人类标注的数据集。

面对海量的PDF、教科书等非结构化数据，DataFlow提供了一套完整的知识抽取方案。它集成了MinerU工具进行文档解析和清洗，能够处理复杂的排版和公式。

解析后的文本被切分、清洗，然后输入给LLM生成基于事实的问答对（QA Pairs）。

这套流程特别适用于垂直领域（如医疗、法律）的数据构建。

在医疗领域的实验中，基于该流水线从医学教科书和指南中抽取的QA数据，训练出的模型在PubMedQA上的准确率比传统的RAG方案高出10个百分点以上，证明了将知识内化到模型参数中的有效性。

1万条胜过100万条：数据效率的胜利

为了验证DataFlow的综合实力，研究团队做了一个大胆的实验：将数学、代码和通用文本流水线生成的数据合并，构建了一个仅包含1万条样本的DataFlow-Instruct-10K数据集。

他们将这个微型数据集与包含100万条数据的开源巨头Infinity-Instruct进行了对比。

结果令人震惊。

在Qwen2.5-7B-Base模型上进行全参数微调后：使用DataFlow-Instruct-10K训练的模型，在GSM8K、MATH等7个榜单上的平均分达到46.7，远超使用Infinity-Instruct 1M数据训练的33.3分；在HumanEval等代码榜单上，DataFlow模型平均分78.6，同样优于Infinity-Instruct 1M的78.0；在MMLU和C-Eval上，DataFlow模型也保持了极高的水准，没有出现因为专注于特定领域而导致通用能力大幅下降的灾难性遗忘。

数据清晰地表明，Inf-1M（Infinity-Instruct 100万条）在数学任务上甚至可能对模型造成负面影响（从Base的37.1降至33.3），这通常是因为数据中包含大量低质量或不仅确的数学推理。

而DataFlow凭借精准的合成与严格的验证，用区区1万条数据就将模型能力提升了近10个百分点，逼近了官方Instruct模型的水平。

这些实验有力地证明了，在后预训练阶段（Post-training），数据的质量、多样性和复杂性远比单纯的数量重要。DataFlow通过精细的控制，能够生产出这种高浓缩的训练燃料。

DataFlow让大模型数据准备从炼金术走向了化学工程。

它不仅提供了一套强大的工具库，更建立了一种标准化的语言，让全世界的开发者可以用同样的范式来交流数据处理的经验。

通过将LLM置于数据处理的核心，并利用Agent实现流程自动化，DataFlow为未来的数据中心AI（Data-Centric AI）奠定了坚实的系统基础。

参考资料：

https://arxiv.org/pdf/2512.16676

https://github.com/OpenDCAI/DataFlow