洞察
智舱,智驾,发展到目前,叫的比较欢还属AI座舱,舱驾融合,多模态融合,端到端,VLA等。智驾VLA以及AI座舱的前提基础技术还属于多模态融合技术,AI智能座舱融合的是xMS、语音;智驾VLA多模态融合的是车端感知(雷达,影像,语音,Sensor等)。
命题
最基础的多模融合应该采用什么技术框架?如何做到数据同步,统一链路,统一接口?
解题
1. 采用MediaPipe架构,构建多模态感知-生成一体化
MediaPipe是一款专为各类平台上的高性能、实时感知流程打造的专用框架。
MediaPipe介绍:
MediaPipe Solutions 提供了一套库和工具,可帮助您在应用中快速应用人工智能 (AI) 和机器学习 (ML) 技术。您可以立即将这些解决方案插入到应用中,根据自己的需求进行自定义,并在多个开发平台上使用它们。MediaPipe Solutions 是 MediaPipe 开源项目的一部分,因此您可以进一步自定义解决方案代码,以满足您的应用需求。MediaPipe Solutions 套件包括以下内容:
可用的解决方案
MediaPipe 解决方案可在多个平台上使用。每种解决方案都包含一个或多个模型,您还可以为某些解决方案自定义模型。下表显示了每种受支持的平台可用的解决方案,以及是否可以使用 Model Maker 自定义模型:
| 解决方案 | Android | Web | Python | iOS | 自定义模型 |
|---|---|---|---|---|---|
| LLM Inference API | √ | √ | √ | √ | |
| 对象检测 | √ | √ | √ | √ | √ |
| 图片分类 | √ | √ | √ | √ | √ |
| 图片分割 | √ | √ | √ | ||
| 交互式分割 | √ | √ | √ | ||
| 手部地标检测 | √ | √ | √ | √ | |
| 手势识别 | √ | √ | √ | √ | √ |
| 图片嵌入 | √ | √ | √ | ||
| 人脸检测 | √ | √ | √ | √ | |
| 人脸特征点检测 | √ | √ | √ | ||
| 姿势地标检测 | √ | √ | √ | ||
| 图片生成 | √ | √ | |||
| 文本分类 | √ | √ | √ | √ | √ |
| 文本嵌入 | √ | √ | √ | ||
| 语言检测器 | √ | √ | √ | ||
| 音频分类 | √ | √ | √ |
Google原文:https://ai.google.dev/edge/mediapipe/solutions/guide?hl=zh-cn&authuser=2https://ai.google.dev/edge/mediapipe/solutions/guide?hl=zh-cn&authuser=2
Github链接:https://github.com/google-ai-edge/mediapipehttps://github.com/google-ai-edge/mediapipe
第三方介绍:https://awesometop.cn/posts/596ae013c38842d2b27ad189d3ecc988https://awesometop.cn/posts/596ae013c38842d2b27ad189d3ecc988
2. 采用分离方案
影像,音频,文本采用独立的架构,基于系统原生基础框架。
比如:Android系统的Camera子系统,Audio子系统
3. 采用芯片原厂架构
比如NVIDIA, DRIVE OS中间件
4. 多模数据如何融合?
拿智驾为例:当前阶段以特征融合为主,基于融合方案,提高视觉、雷达等多源数据实时协同处理能力。
多模态特征融合引用链接:
https://blog.csdn.net/weixin_43840280/article/details/118070317https://blog.csdn.net/weixin_43840280/article/details/118070317
总结
略