瑞萨 RA8P1:当 Cortex-M85 遇上 Ethos-U55,256 GOPS 的嵌入式 AI 长什么样
发布日期:2026-05-06
方向:嵌入式 / 边缘 AI
写在前面
4 月底,有个数字刷新了我的认知:一块 MCU,AI 推理性能做到了 256 GOPS。
这是瑞萨 RA8P1 的数据,发布于 2026 年 4 月。这颗芯片搭载了 Cortex-M85 + Cortex-M33 双核心、ARM Ethos-U55 NPU、以及 TSMC 22ULL 工艺的嵌入式 MRAM——把以前 MPU 才有的硬件规格,装进了一颗 MCU。
这篇文章从工程师的角度,把这颗芯片讲清楚:它能干什么、性能数字是否靠谱、和同类竞品相比有什么差距,以及在什么项目里选它是合理的。
一、RA8P1 的核心硬件:三个亮点
亮点 1:Cortex-M85,目前最强 MCU 内核
Cortex-M85 是 ARM 在 MCU 领域推出的旗舰内核,CoreMark 性能约是 M33 的 1.6 倍,是 M0+ 的 4 倍以上。
RA8P1 的主频是 500MHz,7300+ CoreMarks——这个性能在 MCU 里算什么水平?
MCU CoreMark 性能横向参考(500MHz 条件下): Cortex-M0+(80MHz) → 100~160 CoreMarks Cortex-M4F(168MHz) → 600~750 CoreMarks Cortex-M7(600MHz) → ~3000 CoreMarks Cortex-M33(200MHz) → ~1000 CoreMarks Cortex-M85(500MHz) → 7300+ CoreMarks ← RA8P17300 CoreMarks 的 MCU,意味着你可以在上面跑实时操作系统(FreeRTOS/Azure RTOS)、并发处理多路传感器数据、还能同时跑 AI 推理,而不会因为 CPU 饱和而导致实时性下降。
亮点 2:Ethos-U55 NPU,专为嵌入式视觉优化
Ethos-U55 是 ARM 专门为 MCU 设计的 ML 加速器,而不是"从 GPU 缩水来的"——这个区别很重要。
核心特性:
- 支持 CNN 和 RNN 的计算密集算子(Conv2D、DepthwiseConv2D、LSTM)
- 8-bit 权重量化,8/16-bit 激活值
- 500MHz 工作频率
- 离线权重压缩 + 实时解压,减少 SRAM 需求
- 对不支持的算子,编译器自动 fallback 到 Cortex-M85 CPU
这个 fallback 机制在实际工程里非常有用。你不需要手动拆分模型,RUHMI AI 编译器(下面会说)会自动识别哪些层放 NPU、哪些层跑 CPU,最终生成一个异构执行计划。
亮点 3:嵌入式 MRAM 替代 Flash
RA8P1 用的是 MRAM(Magnetic Random-Access Memory),不是传统的 NOR Flash。
为什么这个重要?
| 特性 | NOR Flash | MRAM |
|---|---|---|
| 写入速度 | 慢(需要擦除再写) | 快(无需擦除) |
| 擦写耐久性 | 10万次 | 1亿次以上 |
| 随机写入 | 不支持 | 支持 |
| 工作温度 | -40~+85°C(标准) | -40~+125°C |
在嵌入式 AI 场景里,MRAM 的快速写入意味着:
- 推理结果、中间特征可以更快地缓存到非易失存储
- 在线学习场景下,模型权重更新的速度更快
- 高温工业环境下的可靠性更好
二、实际推理性能:三个案例数据
官方给的数字,总要打一点折扣,但这三个案例的测试条件相对透明:
案例 1:图像分类(MobileNet v1 on ImageNet)
模型大小:608KB(INT8量化) 分辨率:224×224,RGB 纯 Cortex-M85 CPU 推理:约 100ms NPU 加速后:3ms 加速比:33x3ms 的图像分类——在 MCU 上,这已经接近"实时处理"的边界了。如果你的摄像头是 30fps,那么每帧留给推理的时间预算是 33ms,留给其他处理大约还有 30ms。这个配置是能用的。
案例 2:驾驶员行为监控(基于 Nota.ai 方案)
模型大小:439.8KB NPU 推理时间:11.1ms 预处理+后处理:12ms 端到端总延迟:23.1ms 加速比:24.5x这个案例更接近实际产品场景——一个智能座舱的驾驶员疲劳检测节点,需要分析驾驶员的面部姿态。23.1ms 的端到端延迟意味着约 43fps 的实时分析速率,对驾驶安全监测来说是够用的。
案例 3:道路交通监控
模型来源:Irida 智能城市方案 模型大小:320KB NPU 推理时间:11ms 整体功耗:仅 160mW 加速比:36.4x160mW 整体功耗这个数字比较突出。对比一下:树莓派 4B 运行视觉 AI 任务的功耗通常在 3-5W,某些基于 Jetson Nano 的方案也在 5W 以上。RA8P1 在 160mW 下完成了同类任务,这个能效比差距是 20-30 倍。
对于电池供电或者功耗有严格限制的场景(比如室外智能摄像、工厂边缘节点),这个数字有实际意义。
三、RUHMI AI 编译器:部署流程是什么样的
理论上集成了 NPU 很好,但实际工程里,模型怎么跑到芯片上才是关键。RUHMI 是瑞萨专门为 RA8P1 配套的 AI 编译器,集成在 e2 studio IDE 的 AI Navigator 插件里。
部署流程大概是这样的:
Step 1:模型准备 ├── TensorFlow Lite 导出 .tflite 文件 └── 或 ONNX 导出 .onnx 文件 Step 2:导入 RUHMI ├── AI Navigator 界面导入模型 ├── 选择量化精度(INT8 推荐) └── 指定目标芯片:RA8P1 Step 3:自动优化 ├── 层级分析:识别 NPU 支持/不支持的算子 ├── 算子分割:NPU 层 + CPU fallback 层 ├── 权重压缩:减少 SRAM 需求 └── 生成异构执行计划 Step 4:代码生成 ├── 生成 C 代码(NPU 调用接口 + 权重文件) └── 集成到 FSP 项目工程 Step 5:部署调试 ├── e2 studio 烧录 ├── 推理性能 Profiling └── 功耗分析整个流程在 GUI 工具里完成,不需要手写 NPU 调用代码。这对比早期的嵌入式 NPU 部署体验(需要手动配置寄存器、管理 DMA 传输)已经有质的改善。
四、外设配置:为视觉场景量身定制
RA8P1 的外设配置让人一眼就能看出它的设计目标是视觉 AI 场景:
视觉输入/输出: ├── MIPI-CSI2 → 连接摄像头模组(最高支持 4 通道) ├── MIPI-DSI → 连接显示屏(智能座舱 HMI) ├── GLCDC → GPU 级显示控制器,2D 硬件加速 └── DRW → 2D 图形引擎(反锯齿、混合模式) 通信: ├── Gigabit Ethernet → 支持 TSN/DLR(工业时间敏感网络) ├── CAN-FD → 汽车/工业总线 ├── I3C → 新一代传感器总线 └── USB 2.0 FS/HS → 标准 USB 存储扩展: ├── OSPI(XIP支持) → 直接从外部 Flash 执行代码(节省内部 SRAM) ├── 32bit SDRAM 接口 → 接 64MB SDRAM,用于视频缓冲 └── SDHI ×2 → SD 卡接口(数据记录)TSN(Time-Sensitive Networking)这个特性值得单独说一句:它是工业以太网的关键特性,支持确定性低延迟传输,是做工业视觉节点接入工厂 OT 网络时的重要需求。RA8P1 内置 TSN 支持,少了一颗外部网络处理芯片。
五、和同期竞品的横向对比
2026 年 MCU 市场上,做"视觉 AI 加速"的几个主要方案:
| 方案 | CPU | NPU/加速 | AI 算力 | 典型价格 |
|---|---|---|---|---|
| 瑞萨 RA8P1 | M85+M33 | Ethos-U55 | 256 GOPS | $8-$15 |
| STM32N6(ST) | M55 | NPU(~600 GOPS) | ~600 GOPS | $12-$20 |
| NXP i.MX RT1170 | M7+M4 | eIQ(软件优化) | ~100 MOPS | $6-$12 |
| TI AM13x | A53+M4F | TDA4 系列 | 取决于版本 | $15+ |
STM32N6 的 NPU 算力更高(约 600 GOPS),但价格也更贵;NXP RT1170 价格相近但没有专用 NPU,只能用 CMSIS-NN 软件加速。RA8P1 在这个价位段的 256 GOPS 是有竞争力的。
六、评估套件:EK-RA8P1 的实际配置
如果你想上手评估,EK-RA8P1 的板载硬件已经相当完整:
板载配置: ├── RA8P1 主芯片 ├── 64MB OSPI Flash(支持 XIP 直接执行) ├── 64MB SDRAM(视频/深度学习缓冲用) ├── 双通道 MIPI-DSI 显示连接器 ├── 平行显示连接器(兼容老接口) ├── 摄像头扩展连接器(MIPI-CSI2) ├── Ethernet PHY(TSN 支持) └── USB、SD 卡、JTAG/SWD 调试接口值得注意的是,RT-Thread 的 BSP(Board Support Package)已经在 GitHub 上开源,这意味着如果你的团队熟悉 RT-Thread 生态,迁移成本不高。
七、什么项目选 RA8P1 是合理的
基于上面的分析,给出一个直接的选型判断:
适合选 RA8P1 的场景:
- 需要本地视觉 AI 推理(MobileNet/YOLO tiny 级别),不想用 Linux MPU
- 需要 MIPI-CSI2 摄像头接入
- 对功耗有严格限制(< 200mW)
- 需要工业以太网 TSN 功能
- 希望单芯片覆盖 AI 推理 + 显示驱动 + 工业通信
不适合选 RA8P1 的场景:
- 模型参数量 > 10M(算力不够,考虑 MPU 或 AI 加速卡)
- 只需要简单的 TinyML(成本过高,TI MSPM0G5187 就够了)
- 已有 NXP 或 ST 的工具链投入,切换成本高
小结
RA8P1 是一颗让人印象深刻的芯片——256 GOPS NPU 算力、500MHz Cortex-M85、160mW 功耗下完成实时视觉推理,这些数字两年前在 MCU 上是不可想象的。
嵌入式 AI 正在从"可行"走向"够用"。RA8P1 代表的是 2026 年这个阶段的水位:在合理的成本和功耗下,MCU 已经可以完成中等复杂度的视觉 AI 任务,不再需要依赖云端或者 Linux 主板。
对做工业视觉、智能座舱 HMI、智慧安防边缘节点的工程师来说,这个技术窗口值得认真对待。
来源:瑞萨电子官方新闻稿(2026-04-24)、MCU加油站技术解析、EK-RA8P1 评估板手册、RT-Thread RA8P1 BSP(GitHub)、ARM Ethos-U55 技术规格文档