探索大数据领域Doris的增量更新机制-开发者社区

探索大数据领域Doris的增量更新机制：从原理到实践的深度拆解

一、引入与连接：为什么增量更新是实时数据仓库的“生命线”？

1. 一个真实的痛点场景

凌晨3点，某电商平台的数据工程师小李盯着监控屏幕，额头上渗出细汗——昨天的订单全量更新任务还在运行，已经耗时4小时，而今天的新订单正以每秒1000条的速度涌入。如果继续用全量更新（每天重新计算所有历史订单），会导致两个致命问题：

数据延迟：今天的订单数据要等到全量更新完成才能查询，无法支持运营人员的实时分析（比如“上午10点的爆款商品销量”）；
资源浪费：全量更新需要扫描TB级的历史数据，占用大量CPU、内存和磁盘IO，影响其他任务的运行。

这时候，小李想起了Doris的增量更新机制——它能让新数据快速写入，同时保持历史数据的查询性能，完美解决了全量更新的痛点。

2. 与你已有的知识建立连接

传统数据仓库处理增量数据的方式主要有两种：

全量覆盖：每天将新数据与历史数据合并，生成完整的新表，替换旧表。缺点是效率极低，适合数据量小、更新频率低的场景；
增量追加：将新数据直接追加到历史表中，查询时通过“时间过滤”获取最新数据。缺点是数据冗余（同一行可能有多个版本），查询性能随数据量增长而下降。

Doris的增量更新机制打破了这两种方式的局限：它通过“Base表+Delta表”的双表结构，将“写入优化”与“查询优化”分离，实现了高效的增量数据处理。

3. 学习价值：掌握增量更新能解决什么问题？

降低资源消耗：合并的是增量数据，而非全量数据，节省CPU、内存和磁盘IO；
提升实时性：增量数据写入Delta表后，可立即通过Merge-on-Read策略查询，延迟小于1秒；
支持高并发：Delta表采用行存格式，适合高并发的小批量写入；
优化查询性能：Base表采用列存格式，适合批量查询，合并后的数据保持列存的优势。

4. 学习路径概览

本文将按照“概念框架→基础原理→深度机制→实践应用→多维视角”的逻辑展开，逐步拆解Doris增量更新的底层逻辑。你会看到：

如何用“旧书+笔记”的比喻理解Base表与Delta表；
Merge-on-Read与Merge-on-Write的区别，以及如何选择；
如何通过MVCC保证数据一致性；
实际项目中如何配置增量更新，解决常见问题。

二、概念地图：构建增量更新的整体认知框架

在深入原理之前，我们需要先明确Doris增量更新的核心概念及关系，用一张“概念图谱”建立整体认知：

概念	定义	作用
Base表	存储全量历史数据的主表，采用列存格式（如Parquet）	优化查询性能，支持批量数据分析
Delta表	存储增量数据的临时表，采用行存格式（如RowStore）	优化写入性能，支持高并发的小批量更新
Merge操作	将Delta表中的增量数据合并到Base表的过程，分为Merge-on-Read和Merge-on-Write	整合增量与全量数据，保持Base表的完整性
Rollup表	基于Base表生成的聚合视图（如按“用户ID”聚合的订单总额）	加速常见查询，避免重复计算
MVCC	多版本并发控制（Multi-Version Concurrency Control）	保证合并过程中的数据一致性，避免脏读、幻读

概念关系的可视化描述

Base表是“数据仓库的核心”，Delta表是“临时的增量缓冲区”。当增量数据写入时，先进入Delta表；当Delta表达到一定大小（或满足其他条件），Merge操作将Delta表中的数据合并到Base表，此时Delta表被清空，等待下一批增量数据。Rollup表基于Base表生成，因此合并后的Base表会同步更新Rollup表，保证查询的一致性。

三、基础理解：用“旧书+笔记”类比增量更新

为了让抽象的概念更直观，我们用一个生活化的比喻来理解Base表与Delta表的关系：

1. 比喻：旧书与笔记

Base表：就像一本旧书，里面记录了所有过去的知识（全量历史数据）。旧书采用“列存”的方式排版——比如“第一章”讲订单ID，“第二章”讲用户ID，“第三章”讲金额，这样查找某一章的内容（比如“所有订单的金额总和”）会非常快，但如果要添加新内容（比如“今天的新订单”），需要重新排版整本书，效率很低。
Delta表：就像一本笔记本，用来记录每天的新学知识（增量数据）。笔记本采用“行存”的方式排版——每一行记录一个新订单的所有信息（订单ID、用户ID、金额、时间），这样添加新内容（写入增量数据）会非常快，但如果要查找某一章的内容（比如“所有订单的金额总和”），需要翻遍整个笔记本，效率很低。
Merge操作：就像整理笔记——当笔记本写满了（达到合并阈值），你会把笔记本里的内容整理到旧书中（合并Delta表到Base表）。整理后的旧书包含了所有新内容（全量数据），而笔记本又可以重新用了（Delta表清空）。

2. 具体案例：电商订单的增量更新

假设我们有一个订单表（orders），包含以下字段：order_id（订单ID）、user_id（用户ID）、amount（金额）、create_time（创建时间）。

Base表：存储了截至2024年5月1日的所有订单数据（全量），采用列存格式，查询“2024年4月的订单总额”只需扫描“amount”列，速度很快。
Delta表：存储了2024年5月2日的新订单数据（增量），采用行存格式，写入“2024-05-02 10:00:00”的新订单只需添加一行，速度很快。
Merge操作：当Delta表的大小达到1GB（配置的合并阈值），Doris会自动触发Merge，将Delta表中的2024年5月2日的订单合并到Base表。合并后，Base表包含了截至2024年5月2日的所有订单数据，Delta表被清空，等待2024年5月3日的新订单。

3. 常见误解澄清

误解1：增量更新就是“只更新部分数据”。
正解：Doris的增量更新是“增量累积+合并”——增量数据先写入Delta表，然后合并到Base表，最终Base表保持全量数据。
误解2：Delta表只能存储当天的增量数据。
正解：Delta表可以存储任意时间段的增量数据，合并阈值可以是大小（如1GB）、时间（如每小时）或行数（如100万行）。
误解3：Merge操作会阻塞查询。
正解：Merge-on-Read策略在查询时合并Base和Delta表，不会阻塞写入；Merge-on-Write策略在后台异步合并，不影响前台查询。

四、层层深入：从原理到机制的深度拆解

1. 第一层：基本原理——Base+Delta的双表结构

Doris增量更新的核心是**“分离写入与查询的优化”**：

写入优化：Delta表采用行存格式（RowStore），适合高并发的小批量写入（如实时订单数据）。行存的每个数据行连续存储，写入时只需追加到文件末尾，速度极快（可达每秒10万条以上）。
查询优化：Base表采用列存格式（如Parquet），适合批量查询（如“统计 monthly sales”）。列存将同一字段的所有数据连续存储，扫描时只需读取所需列，速度比行存快数倍。

当有增量数据写入时，流程如下：

graph LR A[增量数据] --> B[写入Delta表（行存）] B --> C{是否触发合并？} C -->|是| D[Merge操作：合并Delta到Base表] C -->|否| E[查询时合并Base+Delta（Merge-on-Read）] D --> F[Base表更新（列存）] F --> G[Delta表清空]

2. 第二层：细节——Merge的两种策略

Doris支持两种Merge策略，分别适用于不同的场景：

策略	定义	优点	缺点	适用场景
Merge-on-Read	查询时，同时读取Base表和Delta表，在内存中合并数据，返回最新结果	写入延迟低（增量数据立即可用）；不占用后台资源	查询延迟略高（需要合并数据）；内存消耗大（合并大量数据时）	高并发写入、需要实时查询的场景（如实时订单分析）
Merge-on-Write	后台异步将Delta表的数据合并到Base表，合并完成后Delta表清空	查询延迟低（只需读取Base表）；内存消耗小	写入延迟略高（需要等待合并完成）；占用后台资源（合并过程消耗CPU/IO）	低并发写入、查询频率高的场景（如离线报表生成）

举例说明两种策略的差异

假设我们有一个订单表，Base表有1000万行数据（列存），Delta表有10万行新数据（行存）：

Merge-on-Read：当用户查询“所有订单的金额总和”时，Doris会同时读取Base表的“amount”列（1000万行）和Delta表的“amount”列（10万行），在内存中合并（求和），返回结果。这个过程的延迟大约是1秒（取决于数据量）。
Merge-on-Write：当Delta表达到1GB时，Doris会在后台启动合并任务，将Delta表的10万行数据合并到Base表。合并完成后，Base表有1010万行数据（列存），Delta表清空。此时用户查询“所有订单的金额总和”只需读取Base表的“amount”列，延迟大约是0.1秒。

3. 第三层：底层逻辑——MVCC与合并机制

（1）MVCC：保证数据一致性的关键

Merge操作涉及Base表与Delta表的关联，如何保证同一行数据的最新版本被保留？答案是MVCC（多版本并发控制）。

Doris为每个数据行添加了两个隐藏字段：

version：版本号，由系统自动生成，递增（如1、2、3……）；
is_deleted：删除标记，标记该行是否被删除。

当插入或更新数据时，Doris会生成一个新版本的行（而非修改旧版本）。例如：

插入订单ID=1001的行，version=1；
更新订单ID=1001的金额（从100元改为200元），version=2；
删除订单ID=1001的行，version=3，is_deleted=1。

合并时，Doris会根据order_id（分布键）关联Base表与Delta表的行，保留version最大的行（即最新版本）。如果is_deleted=1，则删除该行。

（2）合并的触发条件

Doris的Merge操作可以手动触发或自动触发：

手动触发：执行ALTER TABLE orders MERGE;命令，立即启动合并任务；

自动触发：通过配置表的PROPERTIES参数，设置合并阈值：

CREATETABLEorders(order_idBIGINT,user_idBIGINT,amountDECIMAL(10,2),create_timeDATETIME)DISTRIBUTEDBYHASH(order_id)BUCKETS16PROPERTIES("incremental_update"="true",-- 开启增量更新"merge_threshold"="1GB",-- 当Delta表大小达到1GB时触发合并"merge_interval"="3600"-- 每小时检查一次是否需要合并);

（3）合并的过程

Merge操作的具体步骤如下（以Merge-on-Write为例）：

读取Delta表：扫描Delta表中的所有行，获取最新版本的数据；
关联Base表：根据分布键（如order_id）关联Base表中的行，比较version，保留最新版本；
生成新Base表：将合并后的行写入新的Base表（列存格式）；
替换旧Base表：用新Base表替换旧Base表，旧Base表被删除；
清空Delta表：删除Delta表中的数据，等待下一批增量数据。

4. 第四层：高级应用——分区表与流式集成

（1）分区表的增量更新

Doris支持分区表（如按天分区），增量更新可以针对每个分区独立进行。例如，订单表按create_time分区：

CREATETABLEorders(order_idBIGINT,user_idBIGINT,amountDECIMAL(10,2),create_timeDATETIME)PARTITIONEDBYRANGE(create_time)(PARTITIONp20240501VALUESLESS THAN('2024-05-02'),PARTITIONp20240502VALUESLESS THAN('2024-05-03'),...)DISTRIBUTEDBYHASH(order_id)BUCKETS16PROPERTIES("incremental_update"="true");

当写入2024-05-02的增量数据时，数据会进入p20240502分区的Delta表。合并时，只合并该分区的Delta表到Base表，不会影响其他分区的数据。这种方式减少了合并的数据量，提升了效率。

（2）与流式框架的集成

Doris可以与Flink、Spark Streaming等流式计算框架集成，实现实时增量更新。例如，用Flink将Kafka中的订单数据实时写入Doris的Delta表：

// Flink程序示例DataStream<Order>orderStream=env.addSource(newKafkaSource<>());orderStream.addSink(DorisSink.sink("INSERT INTO orders VALUES (?, ?, ?, ?)",// 插入Delta表的SQLnewDorisExecutionOptions.Builder().setBatchSize(1000)// 每1000条数据批量写入.setBatchIntervalMs(5000)// 每5秒批量写入.build(),newDorisOptions.Builder().setFenodes("doris-fe:8030").setDatabase("db").setTable("orders").setUser("root").setPassword("").build()));

这种方式实现了“流式数据→Delta表→实时查询”的端到端实时 pipeline，延迟小于1秒。

五、多维透视：从历史、实践、批判到未来

1. 历史视角：Doris增量更新的演变

Doris的增量更新机制经历了三个阶段：

阶段1（0.12版本之前）：不支持增量更新，只能用全量更新或增量追加。此时Doris更适合离线数据仓库场景；
阶段2（0.12-1.0版本）：引入“Base+Delta”双表结构，支持Merge-on-Read策略。此时Doris开始支持实时数据仓库场景；
阶段3（1.0版本之后）：增加Merge-on-Write策略，支持自动合并、分区表增量更新、流式集成。此时Doris成为“实时+离线”一体化的数据仓库。

2. 实践视角：真实项目中的应用案例

（1）案例1：某电商平台的实时订单分析

场景：每天有10亿条增量订单数据，需要支持运营人员的实时查询（如“当前小时的爆款商品销量”）；
方案：采用Merge-on-Read策略，Delta表的合并阈值设置为2GB，自动合并；
结果：数据更新延迟从4小时缩短到1秒，查询性能提升50%，运营人员可以实时监控销量。

（2）案例2：某游戏公司的用户行为分析

场景：每秒钟有10万条用户行为数据（如登录、点击、付费），需要支持数据分析师的实时分析（如“当前分钟的付费用户数”）；
方案：用Flink将Kafka中的行为数据实时写入Doris的Delta表，采用Merge-on-Read策略；
结果：端到端延迟小于1秒，数据分析师可以实时查看用户行为趋势，快速调整运营策略。

3. 批判视角：增量更新的局限性

Merge操作的资源消耗：当Delta表很大时，Merge-on-Read策略会增加查询的内存消耗（需要合并大量数据）；Merge-on-Write策略会占用后台资源（合并过程消耗CPU/IO）；
高并发更新的版本膨胀：如果同一行数据被多次更新（如订单状态多次修改），会导致Delta表中的版本号增多，合并时的计算量增大；
不支持实时删除：虽然Doris支持标记删除（is_deleted=1），但真正的删除需要等到合并时才能完成，无法实现实时删除。

4. 未来视角：Doris增量更新的发展趋势

更智能的合并策略：基于机器学习预测合并时机（如根据查询频率和Delta表的大小动态调整合并阈值），减少不必要的合并；
云原生弹性合并：利用Kubernetes的弹性伸缩能力，在合并时自动增加BE（Backend）节点的资源，合并完成后释放资源，提升资源利用率；
与数据湖的集成：支持Delta Lake、Iceberg等数据湖格式，实现“数据湖+数据仓库”的一体化增量更新，提升数据的兼容性；
实时删除支持：引入“即时删除”机制，允许用户实时删除数据，无需等待合并。

六、实践转化：从理论到代码的落地指南

1. 步骤1：创建支持增量更新的表

首先，需要创建一个开启增量更新的表，配置合并阈值：

CREATETABLEorders(order_idBIGINTNOTNULLCOMMENT'订单ID',user_idBIGINTNOTNULLCOMMENT'用户ID',amountDECIMAL(10,2)NOTNULLCOMMENT'金额',create_timeDATETIMENOTNULLCOMMENT'创建时间')-- 按order_id分布，避免数据倾斜DISTRIBUTEDBYHASH(order_id)BUCKETS16-- 按create_time分区，方便增量更新PARTITIONEDBYRANGE(create_time)(PARTITIONp20240501VALUESLESS THAN('2024-05-02'),PARTITIONp20240502VALUESLESS THAN('2024-05-03'),PARTITIONp20240503VALUESLESS THAN('2024-05-04'))-- 开启增量更新，配置合并阈值PROPERTIES("incremental_update"="true","merge_threshold"="1GB",-- Delta表大小达到1GB时触发合并"merge_interval"="3600",-- 每小时检查一次"storage_format"="parquet"-- Base表采用Parquet列存格式);

2. 步骤2：写入增量数据

可以用INSERT INTO命令写入增量数据（会自动写入Delta表）：

-- 写入2024-05-02的增量订单数据INSERTINTOorders(order_id,user_id,amount,create_time)VALUES(1001,2001,100.50,'2024-05-02 10:00:00'),(1002,2002,200.00,'2024-05-02 10:05:00'),(1003,2003,300.75,'2024-05-02 10:10:00');

3. 步骤3：触发合并

手动触发：执行ALTER TABLE orders MERGE;命令，立即启动合并任务；
自动触发：当Delta表的大小达到1GB时，Doris会自动触发合并（无需人工干预）。

4. 步骤4：查询数据

无论是Merge-on-Read还是Merge-on-Write策略，查询语法都是一样的：

-- 查询2024-05-02的订单总额（Merge-on-Read会合并Base+Delta表，Merge-on-Write只需读取Base表）SELECTSUM(amount)AStotal_amountFROMordersWHEREcreate_time>='2024-05-02 00:00:00'ANDcreate_time<'2024-05-03 00:00:00';

5. 常见问题解决

（1）合并失败怎么办？

原因：可能是数据冲突（如同一行数据的version重复）、资源不足（如BE节点的内存不够）或权限问题；
解决方法：
1. 查看FE日志（/var/log/doris/fe.log）和BE日志（/var/log/doris/be.log），找到错误信息；
2. 修复数据冲突（如删除重复的version行）；
3. 增加BE节点的内存（修改be.conf中的memory_limit参数）；
4. 检查用户权限（确保有ALTER TABLE权限）。

（2）查询性能下降怎么办？

原因：如果采用Merge-on-Read策略，可能是Delta表太大（合并不及时）；如果采用Merge-on-Write策略，可能是合并任务积压；
解决方法：
1. 降低合并阈值（如将merge_threshold从1GB改为500MB），让Delta表保持较小的size；
2. 增加合并的频率（如将merge_interval从3600秒改为1800秒）；
3. 切换到Merge-on-Write策略（如果查询频率高）。

七、整合提升：从知识到能力的内化

1. 核心观点回顾

Doris增量更新的核心是**“Base+Delta”双表结构**，分离了写入与查询的优化；
Merge-on-Read适合高并发写入、需要实时查询的场景，Merge-on-Write适合低并发写入、查询频率高的场景；
MVCC保证了合并过程中的数据一致性，自动合并减少了人工干预；
分区表与流式集成扩展了增量更新的应用场景，支持“实时+离线”一体化。

2. 知识体系重构

将增量更新与Doris的其他特性结合，形成完整的知识体系：

graph TB A[Doris核心特性] --> B[MPP架构] A --> C[实时查询] A --> D[分区表] A --> E[增量更新] E --> F[Base表（列存）] E --> G[Delta表（行存）] E --> H[Merge操作（Merge-on-Read/Merge-on-Write）] F --> I[Rollup表（聚合视图）] G --> J[流式集成（Flink/Spark）] H --> K[MVCC（数据一致性）]

3. 思考问题：如何选择Merge策略？

假设你有一个实时用户行为分析系统，每秒钟有10万条增量数据，需要支持数据分析师的实时查询（延迟小于1秒），你会选择Merge-on-Read还是Merge-on-Write？为什么？

答案：选择Merge-on-Read。原因如下：

Merge-on-Read允许增量数据立即写入Delta表，查询时合并Base和Delta表，延迟小于1秒，满足实时查询的需求；
Merge-on-Write需要后台合并，合并过程会占用资源，而高并发写入场景下，写入速度是关键，Merge-on-Read不会阻塞写入。

4. 拓展任务：实战测试增量更新性能

任务目标：测试Doris增量更新的写入吞吐量和查询延迟；
步骤：
1. 搭建Doris集群（1个FE节点，3个BE节点）；
2. 创建订单表（开启增量更新，配置Merge-on-Read策略）；
3. 用Flink生成100万条增量数据，实时写入Doris的Delta表；
4. 测试写入吞吐量（每秒写入多少条数据）；
5. 测试查询延迟（查询“所有订单的金额总和”的时间）；
6. 调整合并阈值（如从1GB改为500MB），重复步骤3-5，比较性能差异。

八、结语：增量更新——实时数据仓库的“引擎”

Doris的增量更新机制是实时数据仓库的核心引擎，它解决了传统数据仓库“全量更新效率低”的痛点，让数据更新更高效、更实时。通过“Base+Delta”的双表结构、Merge-on-Read与Merge-on-Write的策略选择、MVCC的一致性保证，Doris实现了“写入优化”与“查询优化”的平衡。

在未来，随着云原生、机器学习等技术的融入，Doris的增量更新机制会越来越智能，支持更多的应用场景。作为数据工程师，掌握增量更新的原理与实践，能让你在实时数据仓库的建设中更游刃有余。

最后，送给大家一句话：“数据的价值在于及时可用，而增量更新是实现这一价值的关键。”希望本文能帮助你深入理解Doris的增量更新机制，在实际项目中发挥它的强大作用！

参考资料：

Doris官方文档：《增量更新》；
《Doris技术内幕》：第四章“增量更新机制”；
Flink官方文档：《Doris Sink》。