从零手写一个Linux内核模块：模拟AMDGPU的dma-fence同步机制（附完整代码）-开发者社区

从零手写一个Linux内核模块：模拟AMDGPU的dma-fence同步机制（附完整代码）

在GPU加速计算的世界里，同步机制的设计往往决定了整个系统的性能天花板。当我在第一次尝试修改开源GPU驱动时，发现传统的锁机制在高并发场景下竟成为性能瓶颈，这才意识到现代GPU同步架构的精妙之处。本文将带你用300行代码实现一个简化版的dma-fence同步模型，通过亲手编写可加载内核模块（LKM），理解AMDGPU驱动中环形缓冲区与同步原语的协作奥秘。

1. 环境准备与核心概念

1.1 开发环境配置

推荐使用Ubuntu 22.04 LTS作为开发环境，需要安装以下软件包：

sudo apt install build-essential linux-headers-$(uname -r) libelf-dev

验证内核版本兼容性（要求≥5.4）：

uname -r

创建模块编译的Makefile文件：

obj-m := fence_demo.o KDIR := /lib/modules/$(shell uname -r)/build PWD := $(shell pwd) all: make -C $(KDIR) M=$(PWD) modules

1.2 dma-fence机制精要

dma-fence是Linux内核中跨设备同步的基石，其核心思想可归纳为：

异步信号模型：代替忙等待（busy-wait）的主动查询
引用计数：通过kref管理生命周期
回调链：支持多消费者订阅完成事件
时间线语义：保证操作的有序性

与传统同步方案的对比：

特性	自旋锁	信号量	dma-fence
等待方式	忙等待	休眠唤醒	回调通知
跨设备支持	否	否	是
性能开销	高（CPU占用）	中（上下文切换）	低（事件驱动）

2. 环形缓冲区设计与实现

2.1 内存布局与指针管理

我们的模拟模块将实现一个256槽位的环形缓冲区，关键数据结构如下：

struct fence_driver { uint32_t sync_seq; // 写指针（单调递增） atomic_t last_seq; // 读指针（原子操作） unsigned num_fences_mask; // 环形掩码（255） struct dma_fence **fences; // 槽位数组 wait_queue_head_t job_scheduled; // 等待队列 };

指针更新采用无锁设计：

写指针sync_seq只由生产者线程修改
读指针last_seq通过atomic_cmpxchg保证原子性

2.2 生产者-消费者模型

生产者逻辑（内核线程模拟）：

申请新的fence对象
计算环形槽位：slot = sync_seq & num_fences_mask
检查槽位冲突（反压机制）
发布fence到环形缓冲区

关键代码片段：

seq = ++ring->sync_seq; ptr = &ring->fences[seq & ring->num_fences_mask]; if (rcu_dereference_protected(*ptr, 1)) { // 触发反压等待 dma_fence_wait(old_fence, false); } rcu_assign_pointer(*ptr, new_fence);

3. 同步原语深度解析

3.1 fence状态机

每个dma-fence实例的生命周期包含三个关键状态转换：

Pending：任务已提交但未完成
Signaled：任务执行完成
Released：所有引用释放后销毁

状态转换图通过enable_signaling回调实现：

static bool dma_fence_enable_signal(struct dma_fence *fence) { if (!timer_pending(&ring->work_timer)) { mod_timer(&ring->work_timer, jiffies + HZ/10); } return true; }

3.2 多级fence联动

我们模拟了AMDGPU中的多级fence结构：

struct fence_set { struct dma_fence scheduled; // 调度阶段 struct dma_fence finished; // 完成阶段 }; struct job_fence { struct dma_fence job; // 主任务 void *data; // 指向fence_set };

释放时的级联反应：

job_fence释放触发fence_set释放
scheduled释放触发finished释放
最终通过RCU机制安全回收内存

4. 调试与性能观测

4.1 内核日志分析

加载模块后，通过dmesg观察关键事件：

[ 342.511284] fence_emit_task_thread line 198, fence emit, seqno 42, seq 42, slot 42 [ 342.511305] fence_recv_task_thread line 135, last_seq/slot 38, seq 42, signal 38 [ 342.511324] dma_fence_enable_signal line 62, signal fenceno 38.

4.2 性能调优要点

批量信号处理：通过fence_seq快照减少中断频率
动态时间片：根据负载调整定时器间隔（HZ/10到HZ/2）
优先级调度：设置内核线程为SCHED_FIFO策略

struct sched_param sparam = {.sched_priority = 1}; sched_setscheduler(current, SCHED_FIFO, &sparam);

5. 完整代码实现

模块初始化部分的关键流程：

static int __init fencedrv_init(void) { ring = kzalloc(sizeof(*ring), GFP_KERNEL); ring->num_fences_mask = num_hw_submission * 2 - 1; ring->fences = kcalloc(num_hw_submission*2, sizeof(void*), GFP_KERNEL); timer_setup(&ring->timer, gpu_process_thread, TIMER_IRQSAFE); timer_setup(&ring->work_timer, work_timer_fn, TIMER_IRQSAFE); fence_emit_task = kthread_run(fence_emit_task_thread, NULL, "fence_emit"); fence_recv_task = kthread_run(fence_recv_task_thread, NULL, "fence_recv"); ring->initialized = true; wake_up_process(fence_emit_task); wake_up_process(fence_recv_task); return 0; }

在模块开发过程中，最易出错的环节是fence的引用计数管理——忘记dma_fence_put会导致内存泄漏，而过早释放又可能引发use-after-free。建议在开发时开启内核的SLUB调试功能：

echo 1 > /sys/kernel/slab/kmalloc-128/fail

从零手写一个Linux内核模块：模拟AMDGPU的dma-fence同步机制（附完整代码）