在上一篇《【数据积木·引言篇】数据积木化:重构企业数据管理的底层逻辑数据积木·引言篇】数据积木化:重构企业数据管理的底层逻辑》文章中,我们共同完成了一场认知革命,认同了从 “雕刻数据城堡” 到 “生产数据积木” 的转型之必要。蓝图既已绘就,下一步便是建造——如何将理念落地为可运行、可迭代、可持续的数据体系。数据体系的建设,并非简单的技术堆砌,而是一场贯穿业务、技术与管理协同的系统工程。它需要清晰的架构指引、规范的治理保障,以及高效的开发实现。
积木生产“一体两翼”架构
在展开数据体系架构之前,我们以终为始,先看下积木是如何被制造出来的。以木质积木为例,其制造流水线清晰分为四个阶段,层层递进,环环相扣。
第一阶段:原材料采购
·工序动作:
1. 接收:接收来自不同林场或供应商的 原木 或 板材。
2. 记录原貌:记录木材的原始信息,如树种、批次、尺寸、含水率、有无明显瑕疵——不对其做 任何改变本质 的加工。
3. 稳定化存放:送入仓库或养生区,让其自然适应生产环境的温湿度,这是一个 被动准备 的过程。
·核心产物:规格不一、记录在案的原始木材。
·核心价值:全量、原始、保留来源信息,是下一阶段加工的原材料。
第二阶段:标准基材加工
原材料形状不一,无法高效直接加工成积木。因此,需要将其标准化:
· 工序动作:
1. 切割/解板:根据统一规划,将形状各异的原木锯解成 固定厚度 的板材。
2. 刨光定尺:将板材双面刨光,并裁切成 统一宽度与长度 的规整木条或大方块坯料。
3. 关键质量检查:剔除含有虫眼、开裂、腐朽等不可用部分,确保基础材料的可用性。
· 核心产物:尺寸统一、表面平整、质量合格的“标准木坯”。
· 核心价值:标准化与清洗。将杂乱原材转化为规格统一的“标准件”,为下游提供纯净、可靠的加工基础。
第三阶段:通用构建加工
· 工序动作:
1. 精密冲压/成型:根据 通用积木形状库(如2x4方块、2x2方块、1x8长条、圆柱、拱门等),将“标准木坯”用精密模具冲压成 特定形状的积木单体。
2. 精细打磨与倒角:对所有成型件进行精细打磨,确保所有棱角圆滑、表面光洁,达到安全把玩标准。
3. 分类与缓存:将加工好的不同形状积木,分类存放至“通用构件仓库”。
· 核心产物:各类光滑、安全、可直接拼搭的“通用积木构件”。
· 核心价值:公共维度汇总与模型化。基于标准基材,生产出 可复用 的通用部件。
第四阶段:主题套装组装
· 工序动作:
1. 接收订单蓝图:根据具体的 销售主题套装 要求(如“梦幻城堡套装”或“交通工具套装”)。
2. 按图拣选与组合:从“通用构件仓库”中,精确拣选出蓝图所需形状、数量的积木构件。
3. 个性化装饰与包装:对部分构件进行特定颜色的涂装、图案印刷,然后将所有构件与说明书一起装入专属包装盒。
· 核心产物:面向特定市场或用户的“主题积木套装”。
· 核心价值:面向应用、灵活组装。像搭积木一样,快速组合底层通用部件,形成满足 最终消费需求 的产品。
以上我们看到的是生产流水线,它层次清晰、高效协作。但在这个过程中,我们必须回答几个根本问题:
1. (选材与标准)为什么要采购榉木,而不是松木或其他木材?不同木材的硬度、纹理、成本如何权衡?
2. (设计规范)积木需要多少种形状?每种形状的规格、公差是多少?要上哪些颜色?颜色编码和耐久性标准是什么?
3. (质量标准)积木的质量检测标准是什么?尺寸精度、表面光滑度、涂层附着力如何量化定义与检测?
4. (安全与合规)积木在消费者组装过程中是否存在安全隐患?边角锐利度、涂料毒性、小零件窒息风险等方面的安全标准又是什么?
5. (工艺与实现)为了实现这四个阶段目标,需要哪些具体工艺、设备和流水线设计?比如冲压的精度、切割的效率、打磨的流程如何优化?
这五个问题,实际上可归为两大类:
问题1至4属于“积木设计”类——定义“做什么、做成什么样、依据什么标准”;
问题5属于“积木加工”类——明确“如何实现、用什么工艺、如何高效执行”。
由此,积木的生产可归纳为 “一体两翼”架构:
一体:积木流水线(四个制造阶段)—— 价值实现的主干道。
左翼:积木设计(规范、标准与安全)—— 确保做正确的事。
右翼:积木加工(工艺、设备与调度)—— 确保正确地做事。
数据积木“一体两翼”架构
那么,数据积木的生产是否也适用这一架构呢?
答案是肯定的,且更为必要:数据的生产同样遵循“一体两翼”的逻辑,且由于数据的虚拟性、易复制性和高价值密度,其设计与加工环节的协同要求更为精密:
一体:数据体系(从原始到应用的数据流水线)—— 数据价值流。
左翼:数据治理(规范、质量与安全)—— 数据标准的制定者。
右翼:数据开发(技术与执行)—— 数据标准的践行者。
数据“一体两翼”架构,是以数据生产流水线为核心躯干,以数据治理与数据开发为两大支撑翼的整体框架。该架构借鉴积木制造的“一体两翼”思想,将数据的组织、加工与治理过程系统化、层次化,确保数据从原始状态到业务价值输出的全过程可控、高效、可靠。
一体:数据体系
数据体系是数据积木的生产流水,其核心是数据的分层分域。借鉴积木的生产流水,按照从原始数据到最终可用的积木,我们可以分四层。
汇集层(ODS)
对应积木的 “原材料采购与仓储”。全量、原始、时效 是关键词。需要建立统一的数据接入规范与缓冲区,以应对源系统异构性与变化,为下游提供稳定、可靠的“数据粮仓”。例如,一家电商公司的ODS层会原样保存来自交易系统的订单快照、来自客服系统的工单记录、来自APP的点击流日志。
归集层(DWD)
对应 “标准基材加工”。这是数据标准化的熔炉。重点在于通过清洗、转换、关联,消除歧义,形成“事实唯一”的明细数据。这一层的质量直接决定了整个数据大厦的稳固性。DWD层会将ODS中杂乱的订单相关表数据进行清洗、拆解、标准化成结构清晰的明细表。例如:
- 清洗:过滤掉测试账号的订单(虫眼),补全缺失的收货地址(填补开裂)。
- 标准化:将支付方式“Alipay”、“alipay”、“支付宝”统一为“支付宝”(统一厚度),将金额单位全部转换为“元”(统一长度)。
聚集层(DWS)
对应 “通用构建加工”。这是可复用数据资产的生产线。通过维度建模、轻度汇总,将明细数据封装成具有明确业务含义、查询性能优异的“数据积木”。它基于纯净的DWD明细数据,按主题预先组装好常用的“数据积木”。例如:
- 客户宽表:将DWD中分散的用户基本信息、订单聚合信息、客服互动信息、浏览行为标签等关联起来,形成一张“以用户为主题”的通用分析表。
- 每日商品销售汇总表:按天、商品、渠道等维度,预计算好销售额、销量、订单数等核心指标。
这些表像“2x4基础方块”一样,被频繁用于多种分析场景(如用户画像、商品分析),避免了每次分析都从原始日志关联计算,极大提升了效率。
市集层(ADS)
对应 “主题套装组装”。这是价值交付的最后一公里。高度灵活,面向应用,可能因需求而采用不同的数据模型(如宽表、指标表、标签表)。它的目标是极致的速度与业务贴合度,这便是 市集层(ADS) 或 应用数据层 的使命。它面向具体的、个性化的应用需求进行深度加工。例如:供大屏展示的“CEO驾驶舱核心指标”:需要将多个DWS表的数据进行高度汇总,比如销售主题指标、采购主题指标、财务主题指标等,计算成5-10个关键指标。
两翼:数据开发与治理
与积木生产一样,数据体系的建设也需要依赖数据治理与数据开发。
数据治理负责数据标准的制定,确保在数据体系建设中做正确的事;
数据开发负责数据标准的执行,确保在数据体系建设中正确的做事。
左翼:数据治理
对应积木制造中的 “积木设计”,数据治理回答了 “做什么、怎么做才对、如何持续向好” 的问题。数据治理的活动包括但不局限:
- 数据标准管理:定义业务术语、指标口径、编码规则、数据模型等。示例:
明确规定公司内“销售额”统一指“已支付订单的净销售额(扣除退款)”,城市编码采用“GB/T 2260”国家标准。
这如同为所有积木零件建立了统一的“图纸和编号规则”。
- 数据质量管理:建立涵盖完整性、准确性、一致性、时效性等维度的度量与监控体系。示例:
对“用户手机号”字段设置质量监控规则:非空率需>99.9%(完整性),格式正则校验(准确性),与用户注册源系统每日对账总量一致(一致性),数据延迟不得超过1小时(时效性)。
- 数据安全管理:制定数据分类分级、权限管控、加密脱敏策略。示例:
将“用户身份证号”统一脱敏为“110101******1234”格式。
这如同为含有小零件的积木套装标注明确的“年龄警示”和“安全材质认证”。
- 元数据与资源编目:管理数据的血缘、影响、属性信息。示例:
通过元数据系统,可以轻松追溯“CEO驾驶舱的GMV指标”其数据源头来自哪个ODS表,经过了哪些DWD、DWS表的加工,有哪些ADS报表依赖于它。
这如同为每个积木套装提供了详尽的“零件清单、来源和组装步骤说明”,方便管理、复用和问题定位。
数据治理并非事后补救,而是贯穿始终的预防性投入。它通过建立规则、监督执行、持续优化,从根本上提升数据可信度与可用性,是数据资产保值增值的基石。
右翼:数据开发
对应积木制造中的 “积木加工”,数据开发回答 “如何高效、稳定、自动化地在数据体系中执行数据治理活动” 的问题。其核心是实施一系列ETL处理动作,包括但不局限:
- 清洗:识别并处理脏数据。示例:在DWD层加工订单数据时:
处理缺失值:对于“收货地址”为空的订单,尝试从用户历史地址中补全,否则标记为“地址异常”。 纠正异常值:发现一件商品的订单金额为-100元(明显错误),将其置为NULL并打上“金额异常”标签,触发质量告警。 去重:由于网络重发导致同一订单在ODS出现两条完全相同的记录,根据订单ID和创建时间戳只保留第一条。
- 转换:将数据从一种格式或结构转换为另一种。示例:
代码转换:将产品系统中的内部状态码“01”、“02”、“03”,根据码表转换为业务可读的“待支付”、“已发货”、“已完成”。
- 关联:将来自不同源的数据基于键值连接起来。示例:在构建DWS层客户宽表时,需要将:
DWD_用户基本信息表、DWD_订单事实表、DWD_客服工单表通过 user_id 这个公共键进行关联,形成一个包含用户所有信息的宽表。
- 聚合:对数据进行汇总计算。示例:
在DWS层创建“每日商品销售汇总表”,将海量明细数据聚合成便于分析的指标数据。
优秀的数据开发能将复杂的数据加工逻辑工程化、产品化、自动化,确保数据流水线能以工业化的规模、速度与稳定性持续产出,将数据治理的蓝图和业务的需求,转化为实实在在可用的数据产品。
总结与展望
数据 “一体两翼”架构,本质上是一个 系统化、工程化、治理与开发并重 的数据建设与运营范式。它强调:
1. 系统性:以价值流(一体)为主线,统领全局。
2. 规范性:以治理(左翼)为保障,确保质量与合规。
3. 工程性:以开发(右翼)为手段,实现高效与稳定。
4. 协同性:三者有机融合,形成持续演进的能力。
在这一架构下,数据不再是散乱无章的副产品,而是像精心设计、标准化生产的积木一样,成为可标准加工、可灵活组装、可重复使用、可持续增值的企业核心战略资产。