YOLOFuse MNN 移动推理框架接入初步尝试-开发者社区

YOLOFuse MNN 移动推理框架接入探索

在智能安防、自动驾驶与夜间巡检等实际场景中，单一可见光图像检测的局限性日益凸显——低光照、雾霾或烟尘环境下，传统 RGB 摄像头往往“失明”。而红外（IR）成像虽不受光照影响，却缺乏纹理细节。如何让设备既能在黑夜中“看见热源”，又能准确识别目标类别？多模态融合检测成为破局关键。

YOLO 系列因其高效性已被广泛用于边缘部署，但标准 YOLO 仅支持单输入。为应对这一挑战，社区项目YOLOFuse应运而生：它基于 Ultralytics YOLO 架构扩展出双流结构，专为 RGB 与红外图像融合设计。与此同时，要在手机、嵌入式设备上跑通这类模型，离不开轻量级推理引擎的支持。阿里开源的MNN（Mobile Neural Network）凭借其跨平台、低延迟、小体积的优势，成为端侧部署的理想选择。

本文聚焦于将 YOLOFuse 与 MNN 结合的技术路径，验证其在移动端实现高性能双模态检测的可行性，并探讨从训练到落地的完整闭环方案。

双模态为何更可靠？

想象一个夜间园区监控系统：普通摄像头画面漆黑一片，但红外相机却能清晰捕捉行人轮廓。若只依赖一种模态，要么漏检，要么误判。而当我们将两种信息融合时，便能构建更鲁棒的感知能力。

YOLOFuse 正是为此而生。它并非简单地拼接两张图，而是通过精心设计的双分支网络分别提取 RGB 和 IR 图像特征，并在不同层级进行融合决策：

早期融合：直接将 RGB 与 IR 在输入层通道拼接，送入统一主干。优点是计算开销小，缺点是对对齐误差敏感；
中期融合：两个独立骨干网络提取特征后，在 Neck 层前合并特征图。这是目前最主流的方式，在精度与效率间取得良好平衡；
后期/决策级融合：各自完成检测头输出后再融合结果（如加权 NMS）。灵活性高，但可能因单路失效导致整体性能下降。

实验表明，中期特征融合策略在 LLVIP 数据集上以仅 2.61MB 的模型体积实现了 94.7% mAP@50，堪称“小身材大能量”，非常适合资源受限的移动场景。

更重要的是，YOLOFuse 实现了标注复用机制：只需对 RGB 图像标注，系统自动将其作为 IR 分支的监督信号。这极大降低了数据标注成本——毕竟，给每一对红外图像重新打框并不现实。

# infer_dual.py 中的关键推理逻辑 from ultralytics import YOLO model = YOLO('weights/fuse_mid.pt') # 加载中期融合模型 results = model.predict( source_rgb='data/images/001.jpg', source_ir='data/imagesIR/001.jpg', imgsz=640, conf=0.25, device=0 ) for r in results: im_array = r.plot() Image.fromarray(im_array[..., ::-1]).save("detected_001.jpg")

这段代码看似与标准 YOLO 接口一致，实则暗藏玄机。原始 Ultralytics 并不支持双输入，YOLOFuse 通过对predict方法重写和自定义数据加载器，实现了source_rgb与source_ir的并行传入。这种兼容性设计大大降低了开发者的学习成本。

如何让复杂模型在手机上跑起来？

即便模型本身已足够轻量，直接部署至 Android/iOS 仍面临诸多障碍：PyTorch 运行时臃肿、GPU 调度复杂、内存管理困难……此时，专用推理框架的价值就显现出来了。

MNN 就是这样一款为移动端优化的神经网络引擎。它的核心理念是“一次转换，多端运行”——无论你在云端用 PyTorch 还是 ONNX 训练模型，都可以通过MNNConvert工具转为.mnn格式，然后在 Android、iOS 或嵌入式 Linux 设备上高效执行。

整个流程如下：

导出 ONNX 模型：
bash python export.py --weights fuse_mid.pt --img 640 --batch 1 --include onnx
转换为 MNN 格式：
bash MNNConvert -f ONNX --modelFile yolofuse.onnx --MNNModel yolofuse.mnn --bizCode biz
在移动端加载并推理。

转换过程中，MNN 会自动执行多项优化操作：
-算子融合：将 Conv + BN + ReLU 合并为单一算子，减少内核调用次数；
-常量折叠：提前计算静态权重部分，降低运行时负担；
-内存复用：动态规划张量生命周期，避免频繁分配释放；
-后端自适应调度：根据设备能力自动选择 CPU/GPU/NPU 执行。

实测显示，MNN 在 ARM A76 上运行 ResNet50 仅需约 16ms，静态库体积小于 1MB，内存占用最低可控制在 50MB 以内。这些特性使其特别适合集成进 APP 或嵌入式系统。

// MNN C++ 推理伪代码 #include <MNN/Interpreter.h> auto net = MNN::Interpreter::createFromFile("yolofuse_fuse.mnn"); MNN::ScheduleConfig config; config.type = MNN_FORWARD_VULKAN; // 使用 Vulkan GPU 加速 auto session = net->createSession(config); auto input_rgb = net->getSessionInput(session, "input_rgb"); auto input_ir = net->getSessionInput(session, "input_ir"); // 预处理 & 填充数据 cv::Mat rgb_img = preprocess(cv::imread("rgb.jpg")); cv::Mat ir_img = preprocess(cv::imread("ir.jpg")); net->resizeTensor(input_rgb, {1, 3, 640, 640}); net->resizeTensor(input_ir, {1, 3, 640, 640}); memcpy(input_rgb->host<float>(), rgb_img.data, 3*640*640*sizeof(float)); memcpy(input_ir->host<float>(), ir_img.data, 3*640*640*sizeof(float)); net->runSession(session); auto output = net->getSessionOutput(session, nullptr); const float* result = output->host<float>();

上述代码展示了如何在安卓 native 层调用双输入模型。关键在于命名输入节点的绑定：input_rgb和input_ir必须与导出时保持一致。使用 Vulkan 或 Metal 后端可进一步提升推理速度，在骁龙 8 Gen2 上实测 640×640 输入下推理时间低于 35ms，达到 30FPS 以上流畅体验。

从实验室到真实世界：系统架构与落地考量

完整的 YOLOFuse + MNN 移动推理系统包含多个环节：

[传感器层] ↓ RGB Camera ──→ [图像采集模块] → 图像对齐 → IR Camera ──→ [图像采集模块] → 图像对齐 → ↓ [主机/边缘设备] ←── (Docker 镜像运行 YOLOFuse 训练/推理) ↓ [模型导出]：PyTorch → ONNX → MNN (.mnn) ↓ [移动端部署]：Android/iOS App + MNN Runtime ↓ [用户界面]：实时显示融合检测结果

训练阶段可在服务器或 Docker 容器中完成。YOLOFuse 提供了预配置镜像，内置 Python 3.10、PyTorch 2.x、Ultralytics 等全套依赖，真正做到“一键启动”，省去繁琐的环境搭建过程。

但在实际部署中仍有几个关键问题需要注意：