从零实现Zynq平台上的AXI DMA传输-开发者社区

从零构建Zynq上的AXI DMA高速数据通道：实战详解

你有没有遇到过这样的场景？
FPGA侧ADC以100Msps的速率源源不断地输出采样数据，而你的ARM处理器却在轮询一个寄存器、一个字节一个字节地搬移数据——结果没几秒CPU就跑满了，图像卡顿、系统死机。这不是性能瓶颈，这是设计方式出了问题。

真正的解决之道，是让CPU“放手”。
这就是AXI DMA存在的意义：它像一条高速公路，把FPGA逻辑和DDR内存直接连通，中间不设收费站（CPU），数据可以一路狂奔到底。

本文将带你从零开始，在Xilinx Zynq平台上亲手搭建一套完整的AXI DMA传输系统。我们将穿越Vivado工程创建、硬件IP配置、地址映射、SDK裸机驱动编写，直到最终实现稳定的数据采集与回传。全程无抽象概念堆砌，只有你能复用的硬核知识和避坑指南。

为什么非要用AXI DMA？

先说个残酷现实：在Zynq这类异构SoC中，如果你还在用CPU去读写PL侧寄存器来搬运大量数据，那你几乎等于放弃了整个平台的优势。

传统PIO（Programmed I/O）模式下，每收到一个数据都要触发一次中断或轮询，CPU必须介入处理。假设你要采集1MB的传感器数据，就得执行百万次内存拷贝操作——这还不算上下文切换开销。结果就是：数据还没处理完，系统已经卡死了。

而AXI DMA完全不同。它的核心思想是：

“告诉DMA我要把接下来4KB数据存到DDR的哪个地址，然后你就别管了，干完活再叫我。”

整个过程CPU只参与开头和结尾，中间完全由硬件自主完成。这种“零拷贝”（Zero-Copy）机制才是现代高性能嵌入式系统的标配。

AXI DMA到底是什么？三个接口讲清楚

很多人被文档里复杂的框图吓退，其实AXI DMA的本质非常简单——它就是一个协议转换桥接器，负责把FPGA侧的流数据（AXI4-Stream）和PS侧的内存访问（AXI4-MM）打通。

它对外暴露三个关键接口：

接口名	类型	功能说明
`S_AXI_Lite`	Slave	CPU用来配置DMA：设地址、启停、查状态
`M_AXI_MM2S`	Master	从内存读数据发给FPGA（Memory to Stream）
`M_AXIS_S2MM`	Master	接收FPGA数据并写入内存（Stream to Memory）

⚠️ 注意命名方向：“MM2S”表示Memory-Mapped → Stream，“S2MM”则是反向。别记反了，否则调试时会疯掉。

典型应用场景中：
-S2MM通道用于数据采集，比如ADC、摄像头、网络包捕获；
-MM2S通道用于激励输出，比如波形回放、视频帧推送；

两者可独立运行，支持全双工通信。也就是说，你可以一边往FPGA送控制指令，一边从FPGA拿回实时反馈数据，互不影响。

工作流程拆解：一次S2MM传输是怎么完成的？

我们以图像采集为例，看看背后发生了什么。

第一步：CPU下单

你在SDK中调用如下代码：

XAxiDma_SimpleTransfer(&AxiDma, buffer_addr, size, XAXIDMA_DEVICE_TO_DMA);

这条命令的意思是：“我要启动一个从设备到内存的传输，目标地址是buffer_addr，长度为size字节。”

底层发生的事：
1. CPU通过S_AXI_Lite写入S2MM通道的起始地址寄存器；
2. 写入传输长度寄存器；
3. 置位启动位，DMA控制器进入待命状态。

第二步：数据自动搬运

此时，FPGA端的图像接口模块开始输出AXI4-Stream格式的数据流，通过M_AXIS连接送到AXI DMA。

DMA控制器自动接收这些数据，并打包成AXI突发事务，经M_AXI_S2MM写入DDR指定区域。整个过程无需CPU干预，带宽利用率可达AXI总线理论极限（约2.5 Gbps @ 100MHz）。

第三步：完工报信

当指定长度的数据全部写入完成后，DMA内部状态机翻转，触发中断信号。

中断服务程序（ISR）被唤醒，执行：

handle_data_ready(); // 标记帧完成、启动算法处理等

至此，一帧图像已安全落地内存，等待后续处理。而CPU在整个过程中仅消耗几十微秒的时间。

关键特性一览：不只是“搬砖”

AXI DMA远比你想象的强大。以下是几个真正影响项目成败的核心能力：

特性	说明	实战价值
Scatter-Gather模式	支持链表式多缓冲区管理	避免频繁中断，适合连续采集
最大256拍突发传输	每次AXI事务最多传256×4=1024字节	提升总线效率，降低延迟
中断细分控制	可单独使能帧完成、延迟、错误中断	精准监控传输状态
Cache Coherency支持	使用ACE端口对接APB Cache	多核环境下避免脏数据
双通道全双工	MM2S与S2MM同时工作	构建闭环控制系统

其中最值得深挖的是Scatter-Gather（SG）模式。启用后，DMA不再局限于单次传输，而是可以从一个描述符链表中自动加载下一个缓冲区地址，实现无限循环采集。这对于长时间运行的监测系统（如雷达、振动分析）至关重要。

裸机环境下的完整驱动实现

下面我们进入实战环节，手把手写出能在Zynq上跑起来的DMA驱动代码。

1. 初始化：获取配置并绑定实例

#include "xaxidma.h" #include "xparameters.h" #include "xil_printf.h" XAxiDma AxiDma; /* 全局DMA实例 */ int dma_init(void) { int Status; XAxiDma_Config *Config; Config = XAxiDma_LookupConfig(XPAR_AXIDMA_0_DEVICE_ID); if (!Config) { xil_printf("Error: No AXI DMA configuration found!\r\n"); return XST_FAILURE; } Status = XAxiDma_CfgInitialize(&AxiDma, Config); if (Status != XST_SUCCESS) { xil_printf("Error: DMA initialization failed!\r\n"); return XST_FAILURE; } // 可选：检查是否支持SG模式 if (XAxiDma_HasSg(&AxiDma)) { xil_printf("Info: Scatter-Gather mode supported.\r\n"); } return XST_SUCCESS; }

📌关键点：
-XPAR_AXIDMA_0_DEVICE_ID来自xparameters.h，由Vivado自动生成；
-CfgInitialize会根据硬件地址空间绑定所有寄存器偏移；
- 若未生成该头文件，请确认Block Design已正确分配地址并生成比特流。

2. 启动S2MM单次传输（轮询版）

适用于调试阶段或低频应用：

#define BUFFER_ADDR 0x10000000U // 必须物理地址，且对齐 #define TRANSFER_SIZE 4096 // 4KB int start_s2mm_polling(void) { int Status; // 关闭中断（使用轮询） XAxiDma_IntrDisable(&AxiDma, XAXIDMA_IRQ_ALL_MASK, XAXIDMA_DEVICE_TO_DMA); Status = XAxiDma_SimpleTransfer( &AxiDma, BUFFER_ADDR, TRANSFER_SIZE, XAXIDMA_DEVICE_TO_DMA ); if (Status != XST_SUCCESS) { xil_printf("Error: S2MM transfer failed!\r\n"); return XST_FAILURE; } // 轮询等待完成 while (XAxiDma_Busy(&AxiDma, XAXIDMA_DEVICE_TO_DMA)); xil_printf("S2MM Transfer Complete! Data at 0x%08X\r\n", BUFFER_ADDR); return XST_SUCCESS; }

🔍注意事项：
-BUFFER_ADDR必须是物理地址，不能是虚拟地址（除非开了MMU）；
- 地址建议对齐到4字节边界，否则可能引发AXI decode error；
- 轮询虽简单，但浪费CPU周期，正式项目应改用中断。

3. 中断驱动模型（推荐）

这才是生产级做法。注册ISR前需确保已在Vivado中将DMA中断连接至PS端IRQ_F2P。

static void s2mm_isr(void *Callback) { u32 IrqStatus; u32 TimeOut = 1000; // 读取RX通道中断状态 IrqStatus = XAxiDma_ReadReg( AxiDma.RegBase + XAXIDMA_RX_OFFSET, XAXIDMA_IRQ_REG ); // 清除中断标志 XAxiDma_WriteReg( AxiDma.RegBase + XAXIDMA_RX_OFFSET, XAXIDMA_IRQ_REG, IrqStatus ); if (IrqStatus & XAXIDMA_IRQ_IOC_MASK) { handle_data_ready(); // 用户回调，如唤醒任务 } } // 注册中断（需结合xscugic驱动） int setup_interrupts(XScuGic *Intc) { XScuGic_Connect(Intc, XPAR_FABRIC_AXIDMA_0_S2MM_INTROUT_INTR, (Xil_ExceptionHandler)s2mm_isr, NULL); XScuGic_Enable(Intc, XPAR_FABRIC_AXIDMA_0_S2MM_INTROUT_INTR); XAxiDma_IntrEnable(&AxiDma, XAXIDMA_IRQ_IOC_MASK, XAXIDMA_DEVICE_TO_DMA); return XST_SUCCESS; }

💡技巧提示：
- 在RTOS中，可在handle_data_ready()中释放信号量或置位事件标志组；
- 若使用FreeRTOS，可用xSemaphoreGiveFromISR()实现高效同步；

常见陷阱与调试秘籍

即使一切看起来都对，实际调试时仍可能踩坑。以下是我在多个项目中总结出的高频问题清单：

❌ 问题1：数据写到了错误地址 or 完全没写入？

✅ 检查DDR地址是否已被其他外设占用（查看Address Editor）；
✅ 确保BUFFER_ADDR位于可用DDR范围（通常是0x00100000以上）；
✅ 使用md.b 0x10000000 16命令查看内存内容验证；
✅ 添加ILA抓取M_AXIS_TDATA和TVALID，确认FPGA端有输出；

❌ 问题2：传输完成后不进中断？

✅ 确认中断已在Vivado中连接至IRQ_F2P；
✅ 检查GIC是否使能对应中断号；
✅ 查看DMA控制寄存器第1位（Run/Stop）是否为1；
✅ 用ILA观察mm2s_introut或s2mm_introut是否有脉冲；

❌ 问题3：缓存导致读不到最新数据？

这是Zynq特有的坑！由于L1/L2缓存存在，CPU可能读到的是旧副本。

✅ 解决方案：

// 在处理DMA写入的数据前，刷新缓存 Xil_DCacheInvalidateRange(BUFFER_ADDR, TRANSFER_SIZE);

📌 规则：凡是DMA写的内存区域，CPU读之前必须无效化缓存；CPU写的区域若要被DMA读，则需刷新（Flush）缓存。

如何规划内存？别让DMA撞上操作系统

很多开发者喜欢直接用malloc分配缓冲区，但在裸机或多核系统中极易出问题。

✅ 推荐做法：
1. 在lscript.ld链接脚本中预留专用DMA内存段：

SECTION { .dma_buffer : { *(.dma_buffer) } > DDR_MEM }

在代码中标注变量放置位置：

#pragma section=".dma_buffer" char rx_buffer[4096] __attribute__((aligned(64)));

这样既能保证地址连续，又能避免与堆栈冲突。

更进一步：结合真实应用场景

掌握了基础之后，你可以轻松扩展出各种高级功能：

环形缓冲采集：配合SG模式，实现N-buffer循环采集，防止丢帧；
双DMA流水线：一个采集当前帧的同时，另一个上传前一帧至网络；
与VDMA联动：用于视频流直驱HDMI输出；
Linux下UIO驱动封装：在PetaLinux中通过字符设备访问DMA，供应用层调用；

甚至可以构建一个实时频谱分析仪：ADC采样 → FPGA FFT → AXI DMA传结果 → ARM绘图显示，全程流水线作业，延迟低于1ms。

写在最后：掌握DMA，才算真正入门Zynq开发

AXI DMA不是某个孤立的技术点，它是通往高性能嵌入式系统的大门钥匙。当你学会让它替你干活，你才真正释放了Zynq“软硬协同”的潜力。

下次面对高速数据流时，不要再问“怎么提高CPU效率”，而应该思考：“我能不能让CPU彻底不管这件事？”

答案往往就在AXI DMA里。

如果你正在做视频采集、软件无线电、工业IO同步采集，欢迎留言交流具体实现细节。也可以分享你在调试DMA时踩过的坑，我们一起排雷。

从零实现Zynq平台上的AXI DMA传输