站在2025年的节点回望企业AI实践,真正的竞争优势并不在于模型本身,而在于那些他人难以获取或理解的独特内部数据。下一个十年,谁能掌控数据,谁就能定义未来生产力。
瓴羊收集上千条真实用户问题,历经数月深度调研与精心打磨,重磅发布国内首份数据分析Agent系统性解读报告《数据分析Agent白皮书:AI重构数据消费》。白皮书内容聚焦数据分析Agent的技术路线、落地方案与未来方向,希望能将Quick BI团队多年积累的认知与思考传递给所有关心数据领域技术和应用发展的用户。
一、领域背景
2023年,LLM突破自然语言理解瓶颈,使对话取数成为可能,问答BI(ChatBI)成为业界普遍方向;2025年,Agent技术的发展赋予了AI系统自主规划、执行、反思的能力,数据分析Agent也成长为能够理解业务需求、自主处理数据、生成专业洞察的企业级智能助手。
源于技术浪潮的推动、企业分析的需求、数据产品突破的探索,这些种种因素,让AI对数据分析的重构成为了一种必然。
大模型打通了自然语言与数据语言之间的鸿沟,让数据分析展现出智能搭建(Copilot)、智能问数(ChatBI)、洞察分析(Insight)、决策智能(Decision Intelligence)等多种可能性。从数据连接到洞察决策,事实上数据分析的每一个环节都具备用AI技术重塑的价值。
- 搭建助手(Copilot):用户只需要输入简单的指令或描述,Colpilot就能辅助用户完成连接数据源、构建数据模型、搭建报表等工作,大大降低了数据产品的使用门槛和使用成本,让没有经验的产品小白也可以更快上手。
- 智能问数(ChatBI):通过自然语言交互,允许用户像和人类对话一样向系统提问,由系统即时理解并返回准确的分析结果,所有人都可以随时随地的获取数据。
- 洞察分析(Insight):基于数据、业务知识,通过大模型让使用传统算法的洞察分析脱胎换骨,实现更精准的总结、诊断、归因,能够自动发现数据中隐藏的价值。
- 决策智能(Decision Intellegence):随着数据量的爆炸式增长和分析技术的不断进步,例如多模态、多元信息整合、多Agent技术的发展,人们不再仅仅满足于单一功能的设定,产品形态可能从被动式服务向主动式服务、信息来源从单一到多源,将数据与人和事连接,进一步解释问题为什么会发生、未来会怎么样,为用户提供更高阶的决策支持。
总结来说,在智能化时代,AIGC加持的对话式分析凭借自然语言灵活响应需求、端到端数据洞察的自动化输出以及数据开发工作的简化等优势特征,带来了全新的、端到端的交互体验,打破了传统分析对专业技能的强依赖,推动数据产品从“人人都是数据分析师”转向“人人都是数据消费者”。
二、技术名词解析
AI时代,诸多的技术词汇以及新兴概念让用户目不暇接。基于Quick BI当前的经验及沉淀来看,在数据分析Agent相关领域,以下技术名词可以多加关注。
- NL2SQL:一种将自然语言转换为SQL获取数据代码的技术方案,与之相关的概念还有NL2DSL、NL2Data等。对于技术选型者,需要关注相关概念。
- ChatBI:一类对话式分析的BI产品工具,但是现阶段一般泛指AI问数类产品。NL2SQL或NL2DSL等技术方案是ChatBI产品内的关键技术组成部分。
- DataAgent:本意是在数据领域具备思考规划及行动能力的智能体。但是遗憾的是,由于一方面场景定义不够聚焦(定位于所有和数据相关的智能体应用,包括智能分析,智能营销等等),另一方面产品化程度及企业级能力考虑不足,所以市场上大部分的DataAgent基本沦为单点交付实施的项目,其能力可复制性、价值确定性及持续可维护性面临较大挑战。
- 分析Agent:聚焦于数据分析领域的智能体,具备“数据获取-分析结论-策略输出-报告撰写”的全流程自动化能力。NL2SQL类的技术能力是其组成部分之一。目前市场上多以具备智能问数、智能报告等综合能力的产品形态提供服务。
- Agent搭建平台:类似于Dify、LangChain、LangGraph、百炼、Coze等,都是支持自定义智能体构建的平台,通常支持流程编排能力,流程节点可以调用大模型的接口进行推理服务,很多也有配套的知识库构建和管理能力。部分企业和组织用智能体搭建平台来完成逻辑较为明确且复杂度相对较低的智能体搭建。但对于逻辑较为复杂的业务,从专业性及可维护性等角度出发,选择垂直聚焦的Agent产品是更多企业的选择。
三、数据分析Agent内核框架
Agent有很多工作模式,我们在此介绍一种典型的Agent工作模式,将其概括为以下核心环节:
- 任务规划 (Task Planning)
- 工具选择 (Tool Selection)
- 工具调用 (Tool Invocation)
- 子任务递归执行 (Recursive Execution of Subtasks)
- 最终反馈生成 (Final Response Generation)
当大模型需要根据说明完成一个自身推理无法(准确)完成的复杂问题时,Agent会负责选择对应工具,告诉模型应该使用哪个工具以及对应参数。
数据分析Agent就是根据上述的工作模式进行设计。基于数据分析领域的独特性与复杂性,可以将数据分析Agent内核拆解为多个不同能力组合的Agent,具体为:
- QueryAgent:准确的数据获取及统计的能力,这是基础,我们称之为取数
- DocumentAgent:非结构化数据分析的能力,这是扩展,我们称之为理解
- DeepAnalyzeAgent:复杂问题理解并输出分析报告的能力,这是升阶,我们称之为分析
在不同的数据分析场景,需要使用的能力及Agent也有所差异。
面对取数类问题,比如“今年我们公司各大区销售目标完成情况?”、“这个月的总订单量及已处理订单量?”,我们可以通过QueryAgent完成对问题的理解、找到数据出处、生成取数代码、执行代码生成数据、调用可视化图表组件进行展示。
面对复杂分析类问题,比如生成经营分析报告。模型自身是无法直接进行总结的,它需要对问题进行理解和规划(基于DeepAnalyzeAgent),先调用取数工具(如QueryAgent)获取每个月的销量情况,再调取非结构化数据分析工具(如DocumentAgent)理解不同月份的经营动作及策略变化,再将相关内容整合在一起后进行分析、归纳和总结,并最终形成分析报告。
整体来看,数据分析Agent会涉及到模型、知识、语义及数据的交互,所以领域内公认的较为完整的数据分析Agent内核框架基本如下。
四、ChatBI的重点技术解析
取数是数据分析的基础核心环节,直接决定了分析的准确性与整体效率,同时也是ChatBI问数能力的关键。具体到问数的技术实现层面,NL2SQL、NL2DSL、NL2Code/NL2Python等技术方案也成为了行业高频提及的宣传词汇。
NL2SQL、NL2DSL、NL2Code/NL2Python的共同目标都是用自然语言取到数据,也就是将自然语言转化为SQL、DSL或代码,再进一步通过代码执行完成数据的获取。
当前主流的智能问数技术路线是NL2SQL和NL2DSL,同时有技术实力的团队进入到更具融合性的阶段,也被统称为NL2Data技术路线。
- NL2SQL:通过大模型将用户的自然语言问题转换为结构化查询语言(SQL),使数据库能够理解并返回数据查询结果。
- NL2DSL:通过大模型将用户的自然语言问题转换为BI领域结构化语言(DSL),然后由BI分析引擎转换为结构化查询语言(SQL),使数据库能够理解并返回数据查询结果。因此也有NL2DSL2SQL的说法。
- NL2Data:通过大模型将用户的自然语言问题进行转化,使用混合技术模式最终转换为SQL结果。混合技术模式包括将问题转换为单步或多步,并在每一步选择NL2SQL或NL2DSL或NL2Python。
NL2SQL能快速借力大模型的SQL生成能力,所以成为了较多团队的选择。但是,NL2SQL会面临复杂分析局限及不同数据库的方言适配限制,同时需要构建行列级数据权限管控等能力,因此个人或小型团队使用较多,稍大规模的团队则会通过模型训练等方式来缓解部分存在的问题。具体来说,NL2SQL路线面临着以下局限性。
- 语义理解准确性:由于缺乏数据模型的抽象定义,直接对接物理表,大模型难以理解问题并映射到具体的物理表,需要另外补足语义模型管理的能力
- 生成数据库特定方言SQL的准确性与可执行性:生成准确且可执行的SQL是一项非常难的事情,需要大模型深入理解SQL语法、数据库特定方言,目前的大模型还难以支持各种丰富的数据库类型
- 难以应对复杂业务分析:例如多表关联/合并、嵌套查询等场景,复杂的业务分析问题要求模型具备强大的语义理解和逻辑推理能力
- 不确定的性能问题:大模型生成的SQL很难保持稳定不变,且性能最优
- 数据安全风险:缺乏对上层应用和用户的权限管控,需要另外补足数据行列权限管控能力
相较于 NL2SQL直接转化为通用 SQL语句,NL2DSL先将自然语言转化为适配各BI产品的特定领域语言,更具备数据分析领域的场景适配性,能够最大化复用成熟的BI技术体系,相对来说会具备较高的准确性、时效性、安全性。但正因如此,NL2DSL路线需要依赖BI技术体系,同时需要通过训练的方式让大模型具备对DSL语言的理解,所以NL2DSL路线一方面对团队的技术要求比较高,另一方面查询的复杂性会受限于BI引擎的能力边界。
总结来说,NL2DSL路线是有BI产品基础的厂商首选的技术路径,因为过去大量的分析能力的积累、数据语义构建的基础、数据权限的管控、丰富数据源类型的兼容、海量数据查询加速、可视化展示与交互,所有这些数据产品的关键能力都能马上复用,带来极好的用户体验。
在实践过程中,为了达到更好的数据准确性、场景覆盖度以及用户体验,有技术资源的团队,会在以下两方面进一步优化:一方面,采用混合路线,比如加入NL2Code/NL2Python而非单纯依赖NL2DSL路线;另一方面,混合采用Plan-and-Act及ReAct进行规划,基于分析问题和场景选择合适的模式。以Quick BI的QueryAgent为例,支持开启规划模式,可对歧义性问题进行澄清、发散性问题进行任务编排、收敛性问题自主判断哪些能力范围内的任务、超纲类问题进行拒识,同时也支持混合特定场景的算法小模型调用。所以在国际数据技术领域中,逐步将这样的技术路线统一定义为NL2Data路线,也是目前Quick BI比较赞同和践行中的路线。
事实上技术创新从无捷径可走。既没有一步到位就完美实现的技术路线,也没有放之四海皆准的技术路线,不同团队的技术厚度、具体需求、可投入资源及对当下领域内的技术边界的认知,决定了到底需要用什么样的路线达到什么样的能力,最终能实现什么样的场景价值。
五、数据分析Agent内核框架
要解决取数类问题、分析类问题并实现广泛落地,必备一个强大的端到端应用作为支撑。因此,除了夯实分析 Agent 的内核能力,还需配套构建面向用户级交互体验的工程化能力,比如数据可视化展示与交互、企业级加速引擎、数据安全的管控及稳定性保障。这正是 Quick BI 的核心优势所在。
通过复用多年积累的全链路数据能力与企业级服务经验,Quick BI推出的数据分析Agent智能小Q深度嵌入了现有 BI 体系并作为智能化中枢助力产品突破瓶颈,实现快速复用数据连接、权限管控、可视化图表等成熟模块,形成了开箱即用的落地优势。
六、未来展望
站在 2025 年的节点回望,数据分析Agent既有巨大的能力飞跃,又依旧面临着数据准度、分析深度、消费广度的考验,而这些挑战也正是数据分析Agent正在不断突破和演进的方向。
数据准度是一切可能性的前提,因为所有数据结论都建立在数据准确性的基石之上。当前基础的数据质量问题、面向AI的数据语义清晰度问题、模型尚且存在的幻觉概率等问题共同导致了数据分析Agent输出结果的准确性风险。我们认为,解决准确性问题的落点依旧在于综合性的方案,比如选择合适的模型甚至进行专项模型训练、建立高质量的基础数据集、构建完备的数据语义及知识库。
在分析深度方面,数据知识化是必然趋势。数据知识化包含两个方面,首先是将结构化的数据通过理解解读为非结构化的知识,在此基础上观测趋势、识别异常、洞见原因进而形成有效行动策略的知识。我们不能仅仅寄希望于大模型对更大量级数据的理解力提升,而是需要在面向AI的数据预计算与拆解、适时选择小模型对结构化数据深加工、高质量非结构化数据构建这三方面采取行动并积累实践经验。具体来说,以下这些方面值得我们关注:
- 如何连接企业高频数据,让数据更好更高效地转化为知识
- 如何构建行业分析模型,内化企业知识,快速构建多种分析场景Agent
- 如何提升洞察归因能力,围绕业务场景降低使用门槛,围绕核心指标实现沙盘推演
- 如何覆盖多种报告场景,从非结构化数据中萃取高质量知识
在消费广度方面, 想要真正实现从“人找数”到“数找人”的进化,甚至到真正的“智能行动”,不管是数据信息的架构、数据与人员组织的关联还是数据与业务流的关联,都必定会面临巨大的变革。就当下而言,一方面需要主动识别目标人群及价值场景;另一方面,也必须注重在产品系统层面结合OA与各种应用系统,同时对安全及权限管控、订阅推送等重点企业级能力进行储备。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。