从单核百万 PPS 到多核扩展失败：DPDK 系统为什么总是死在架构设计上？-开发者社区

一、一个看似成功的项目

很多 DPDK 项目都有类似的发展过程。

第一版系统往往非常简单：

RX ↓ Flow Lookup ↓ Forward ↓ TX

开发人员很快就能做出一个 Demo。

实验室压测：

单核 5Mpps
CPU 利用率不到 70%
时延几十微秒

结果令人满意。

于是项目开始进入下一阶段：

NAT
ACL
QoS
Statistics
Session
DPI
Telemetry

功能越来越多。

与此同时，用户规模也开始增长。

从：

10万 Session

增长到：

100万 Session

再增长到：

1000万 Session

这时候问题开始暴露。

二、为什么单核性能很好，多核却扩展不上去？

很多工程师最开始会认为：多开几个 Worker 不就行了吗？

理论上：

1 Core = 5Mpps 8 Core = 40Mpps

但实际测试结果往往是：

1 Core = 5Mpps 2 Core = 9Mpps 4 Core = 15Mpps 8 Core = 20Mpps

扩展效率越来越差。

最终甚至出现：

增加线程 = 性能下降

这种反直觉现象。

为什么？

因为系统设计违反了一个最重要原则：数据平面最怕共享状态。

三、共享状态是扩展性的第一杀手

很多初学者设计数据面时都会这样做：

struct flow_table g_flow_table; struct stats g_stats; struct session_mgr g_session_mgr;

所有线程共享。

这样写非常方便。

但随着核数增加，问题开始出现。

因为：

共享状态 = 共享 Cache Line = 共享同步开销

CPU 不得不持续进行：

Cache Coherency
Memory Ordering
Atomic Synchronization

最终大量 CPU 周期浪费在同步上，而不是处理报文。

四、为什么锁不是最大的问题？

很多人会说：那我不用锁。

于是开始使用：

Lock-Free Queue
Atomic
RCU
Ring

结果性能依然不理想。

原因在于：很多人误以为：

无锁 = 无成本

实际上：无锁只是：

避免睡眠

并不意味着：

避免同步

例如：

__atomic_fetch_add();

虽然没有锁。

但仍然会触发：

Cache Line Ownership 转移
Memory Barrier
Pipeline Stall

在高 PPS 场景下，这些开销依然巨大。

五、Flow Table 为什么会成为系统瓶颈？

很多数据面系统的核心是：

五元组 ↓ Hash ↓ Session

开发初期：几十万 Session，性能很好。

但当 Session 达到千万级，问题开始出现。

因为 Hash 查找的复杂度虽然是 O(1)，但现代 CPU 真正在意的不是时间复杂度。

而是：

Memory Locality

例如：

flow = bucket->next->next->next;

这种代码虽然理论复杂度很低。

但每次指针跳转都可能导致：

Cache Miss

一次 Cache Miss 的代价，远远超过几十条 CPU 指令。

六、真正的扩展能力来自数据分片

后来很多成熟的数据面系统开始采用：

Shard

思想。

例如：

Worker0 ↓ Flow Table 0 Worker1 ↓ Flow Table 1 Worker2 ↓ Flow Table 2

每个线程维护自己的状态。

这样带来的好处是：

无共享 无同步 无锁

CPU Cache 命中率大幅提高。

扩展能力也显著提升。

七、为什么 RSS 是数据面架构的核心？

很多人把 RSS 理解成：

网卡负载均衡

其实并不准确。

RSS 真正价值是：

流状态归属

例如：

TEID 1001 永远进入 Queue0 TEID 1002 永远进入 Queue1

这样：

Flow State 可以永久驻留在对应 Worker，避免跨核同步。

对于 UPF 来说，RSS 不只是性能优化，而是整个架构成立的基础。

八、UPF 为什么特别适合 Shared-Nothing？

因为 UPF 天然具有：

TEID

这个关键字段。

例如：

TEID % WorkerNum

即可实现天然分片。

这样：

每个 Worker 维护：

TEID Table PDR FAR QER URR

都不需要共享。

控制面只需要把规则下发给对应 Worker 即可。

九、很多 Pipeline 架构为什么最终失败？

很多团队会设计：

RX ↓ Parser ↓ Session ↓ QoS ↓ TX

每一级一个线程，看起来很优雅，实际上却非常危险。

因为：

每经过一级：

Ring ↓ Cache Flush ↓ Core Migration

报文都需要重新进入新的 Cache。

最终：CPU 大量时间消耗在：

Cache Refill

而不是业务逻辑。

十、为什么 VPP 能做得这么快？

VPP 的核心思想之一：不是 Pipeline。

而是：

Vector Processing

即：

同一个 Core 一次处理 N 个 Packet

优势在于：

Cache 命中率高
Branch Prediction 更稳定
Prefetch 更有效

本质上：是在提高 CPU 利用率，而不是增加线程数量。

十一、控制面与数据面的边界应该在哪里？

这是很多项目后期崩溃的根源。

很多系统设计成：

Control Plane 直接修改 Flow Table

结果：

Worker 线程正在访问。

控制面同时修改。

于是：

加锁
RCU
Copy-On-Write

越来越复杂。

成熟设计通常采用：

消息驱动

例如：

ADD TEID DEL TEID MOD TEID

控制面发送消息。

Worker 自己更新状态。

这样：数据面永远不需要共享状态。

十二、真正优秀的数据面架构是什么样的？

经过大量项目实践后。

优秀架构往往具备几个共同特点：

Shared-Nothing

每个 Worker 独立维护状态。

One Queue One Core

队列与 CPU 固定绑定。

State Affinity

流状态固定归属。

Message Driven

控制面通过消息交互。

NUMA Awareness

状态、CPU、内存、队列保持一致。

十三、DPDK 最大的误区

很多人认为：DPDK 的核心是收发包。

实际上，收发包只是入门。

真正困难的是：

状态管理

因为：数据面系统本质上不是：

Packet Processing

而是：

State Processing

报文只是载体。

状态才是核心。

十四、从 UPF 看未来的数据面架构

随着：

5G
6G
云网络
智能网卡

的发展。

数据面规模越来越大。

未来真正有价值的能力已经不是：

DPDK API 熟练度

而是：

大规模状态系统设计能力

谁能解决：

千万 Session
百核扩展
NUMA 架构
Shared-Nothing

谁才能构建下一代数据面平台。

十五、总结

很多 DPDK 项目最终失败，并不是因为 PPS 不够高。

而是因为架构设计从第一天就埋下了扩展性隐患。

当系统规模增长时：

共享状态
跨核访问
同步开销
Pipeline 迁移

都会逐渐放大。

真正优秀的数据面系统遵循的原则其实很简单：

数据跟着流走 状态跟着数据走 CPU 跟着状态走

当状态、数据和 CPU 始终保持局部性时，系统才能获得接近线性的扩展能力。

这也是从单机百万 PPS 走向运营商级千万 Session 系统时，最重要的一课。

从单核百万 PPS 到多核扩展失败：DPDK 系统为什么总是死在架构设计上？