news 2026/5/6 5:30:40

助睿数智平台 ETL 实验报告 —— 订单数据关联与利润分流处理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
助睿数智平台 ETL 实验报告 —— 订单数据关联与利润分流处理

助睿数智平台 ETL 实验报告 —— 订单数据关联与利润分流处理

一、实验概述

1.1 实验目的

本次实验依托助睿数智(Uniplore)一站式数据科学实验平台开展 ETL 实操训练,旨在达成以下目标:

熟悉助睿 ETL 数据集成模块的操作界面与核心概念,掌握新建团队、项目、转换流的完整流程。

熟练运用表输入、记录集连接、字段选择、过滤记录、Microsoft Excel 输出等核心组件。

完成订单表与产品表的多表关联、冗余字段清理、按利润条件数据分流,理解 ETL抽取 - 转换 - 加载全流程逻辑。

1.2 实验环境

实验平台:助睿数智(Uniplore)数据集成平台

平台地址:https://lab.guilian.cn/

数据源:MySQL 数据库,业务库business_anaylsis下的order_detail(订单详情表)、product(产品信息表)

输出形式:Excel 文件(盈利订单、亏损订单)

1.3 实验流程

数据抽取:使用表输入组件读取订单表与产品表数据。

数据关联:通过记录集连接实现两表左连接关联。

字段清洗:使用字段选择组件移除重复 ID 字段。

数据分流:通过过滤记录按profit >= 0条件拆分数据。

数据输出:将结果分别导出为 Excel 文件。

二、实验步骤

步骤 1:登录平台并新建团队与项目

登录贵兰在线平台,进入实训平台跳转至助睿数智数据集成模块。

点击新增团队,填写团队名称与描述,完成团队创建。

在对应团队下点击新建项目,命名项目并保存。

双击进入项目,右键空白处选择新建转换流,命名为 “订单利润分流处理(仇)”,完成转换创建。




同步元数据

步骤 2:批量添加组件并完成数据流连线

从组件库一次性拖入所有组件:

2 个表输入(重命名:订单_详细订单、订单_产品信息)



重命名:右键组件

另一个表输入组件做同样的操作

1 个记录集连接

1 个字段选择(重命名:移除产品 ID_1 字段)

重命名:



1 个过滤记录

2 个 Microsoft Excel 输出(重命名:盈利订单、亏损订单)


重命名:

按数据流向完成连线:(出现“十”单击拖拽就行)

订单_详细订单、订单_产品信息 → 记录集连接

记录集连接 → 移除产品 ID_1 字段

移除产品 ID_1 字段 → 过滤记录(主输出步骤)

过滤记录(True)→ 盈利订单

过滤记录(False)→ 亏损订单

全组件添加与完整连线:

步骤 3:配置表输入组件(抽取源数据)

(1)订单_详细订单配置

数据库连接选择:线上公共数据源(Readonly),点击获取 SQL 查询语句

选择business_anaylsis.order_detail表,确认生成查询语句。




(2)订单_产品信息配置

数据库连接同上,选择business_anaylsis.product表,完成产品数据抽取配置。

步骤 4:配置记录集连接(多表关联)

第一个 Transform:订单_详细订单;第二个 Transform:订单_产品信息。

连接类型:LEFT OUTER(左连接)。

点击获取连接字段


仅保留:

订单_详细订单:product_id

订单_产品信息:id

右键删除其余多余字段,确认完成关联配置。

步骤 5:配置字段选择组件(清理冗余字段)

双击组件,切换至移除标签页。右键获取字段

仅保留id字段,其余重复字段全部移除。

确认保存,完成重复 ID 字段清理。

步骤 6:配置过滤记录组件(数据分流)

发送匹配结果给:盈利订单;发送不匹配结果给:亏损订单。

判断字段:profit;判断条件:>=;值:0。

实现逻辑:利润≥0 为盈利订单,利润 < 0 为亏损订单。



步骤 7:配置 Excel 输出组件(结果导出)

(1)盈利订单输出配置

文件名:盈利订单;扩展名:xlsx(Excel 2007 及以上)。

输出字段:右键获取字段,完成字段映射。



(2)亏损订单输出配置

文件名:亏损订单;其余配置与盈利订单一致。


步骤 8:运行转换并查看执行日志

先保存当前转换流,再点击运行按钮。

转换运行环境选择local,日志级别选择基本日志,点击启动。

查看执行日志,确认各组件处理正常、无报错、数据条数匹配。

三、实验结果

3.1 输出结果

实验成功生成两个 Excel 文件,保存在平台文件库中:

盈利订单.xlsx:存储profit ≥ 0的订单数据,共 7977 条。

亏损订单.xlsx:存储profit < 0的订单数据,共 2023 条。

3.2 结果验证

完整性验证:订单表 10000 条、产品表 1977 条,左连接后输出 10000 条,分流总数与原数据一致,无丢失、无重复。

准确性验证:随机抽查 Excel 数据,订单号、产品名称、利润等字段与源数据一致,关联无错位。

分流验证:盈利订单利润均≥0,亏损订单利润均 < 0,过滤规则完全生效。

右键文件并下载



四、常见问题与解决方法

问题 1:记录集连接无数据输出

现象:两个表输入均有数据,但连接后输出为 0 条。

原因:未正确设置关联字段,或保留多余字段导致匹配失败。

解决:仅保留product_id与id作为关联字段,删除其他字段后重新执行。

问题 2:数据分流结果异常

现象:盈利与亏损数据分布不符合预期。

原因:判断字段选错、条件写错,或 True/False 输出连线错误。

解决:重新选择profit字段,条件设为>=0,检查并修正连线对应关系。

五、实验总结

5.1 实验收获

通过本次实验,我完整掌握助睿 ETL 平台从团队 / 项目创建→组件拖拽连线→分步配置→运行导出的全流程操作,理解 Pipeline、Transform、Hops 等核心概念。能够独立完成多表左连接、字段清洗、条件过滤分流等典型 ETL 任务,具备基础的数据处理与问题排查能力,对商业数据 ETL 流程有了直观且深入的理解。

5.2 平台评价

助睿数智(Uniplore)平台可视化拖拽操作简单易用,零代码配置降低了 ETL 学习门槛;组件丰富、提示清晰、运行日志详细,便于快速定位问题,非常适合用于教学实验与入门实操,能有效帮助学习者掌握数据集成核心技能。

六、附录

平台名称:助睿数智(Uniplore)数据集成平台

实验地址:https://lab.guilian.cn/

核心组件:表输入、记录集连接、字段选择、过滤记录、Excel 输出

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/6 5:30:36

怎么走到AI产品经理?

本文分享了AI产品经理从传统思维到拥抱AI的四大转变&#xff1a;从"信息采集员"升级为"结果裁判官"&#xff0c;掌握定义工作流的核心能力&#xff1b;从"普通用户"进化为"工具制造者"&#xff0c;通过编程调用API提升效率&#xff1b…

作者头像 李华
网站建设 2026/5/6 5:28:27

终极3D模型转Minecraft建筑神器:ObjToSchematic完全使用指南

终极3D模型转Minecraft建筑神器&#xff1a;ObjToSchematic完全使用指南 【免费下载链接】ObjToSchematic A tool to convert 3D models into Minecraft formats such as .schematic, .litematic, .schem and .nbt 项目地址: https://gitcode.com/gh_mirrors/ob/ObjToSchemat…

作者头像 李华
网站建设 2026/5/6 5:23:30

ICoT与傅里叶结构优化语言模型推理

1. 项目背景与核心价值ICoT&#xff08;Inductive Chain-of-Thought&#xff09;训练与傅里叶结构的结合&#xff0c;是当前语言模型优化领域的前沿探索方向。这个组合拳解决了两大痛点&#xff1a;传统CoT&#xff08;思维链&#xff09;方法在复杂推理任务中的泛化能力不足&a…

作者头像 李华
网站建设 2026/5/6 5:22:28

别再只调参了!用Deeplabv3+做自动驾驶分割,这3个工程化细节(特征融合、ASPP裁剪、通道数调整)比换模型更重要

Deeplabv3自动驾驶分割实战&#xff1a;3个被低估的工程化调优策略 当我们在自动驾驶项目中部署语义分割模型时&#xff0c;常常陷入一个误区——认为模型性能的提升只能通过更换更大规模的预训练模型或调整超参数来实现。实际上&#xff0c;在Deeplabv3这类成熟架构中&#xf…

作者头像 李华