做多模态AI应用测试时我会在Kula AI聚合平台(leadhi.cn)上同时调几个模型做端到端对比。最近两周把Gemini 3.5的多模态能力在图片理解、视频分析、音频处理几个场景上做了密集测试。这篇文章聊聊哪些场景提升明显,哪些地方还有差距。![]()
多模态不是新概念但这次不一样
多模态AI不是新鲜事。GPT-4V很早就支持图片输入,Claude也能处理图片。但之前的多模态更像"能看图"而不是"真懂图"。
Gemini 3.5这次的升级让我感觉到一个变化:它不只是能识别图片里有什么,而是能理解图片中各元素之间的关系。这个区别在实际应用中影响很大。
举个最直观的例子。给它一张架构图,以前的模型能告诉你"图里有三个方框和两条箭头"。Gemini 3.5能告诉你"这是一个三层架构,数据从左侧的数据源经过中间的处理层流向右侧的展示层,中间有一个缓存层做性能优化"。
从"识别元素"到"理解关系",这是一个质的变化。
场景一:截图理解
前端开发者最常用的场景之一:把UI截图丢给模型让它生成对应的代码。
测了一组真实的设计稿截图。Gemini 3.5对布局结构的理解准确度比前代有明显提升。它能识别出栅格布局、Flexbox排列、嵌套层级这些结构信息,而不只是"上面一个导航栏下面一个卡片列表"这种粗粒度描述。
但它在处理复杂设计稿时有一个明显的问题:间距和尺寸只能估算不能精确识别。它知道两个元素之间"有间距"但不知道是16px还是24px。所以生成的代码在布局结构上基本正确但具体数值需要手动调整。
跟GPT-5.5的对比:GPT-5.5在间距的估算上稍微准一些,但在复杂布局的结构理解上不如Gemini 3.5。两者各有优势。
场景二:图表数据分析
把一张包含折线图、柱状图或饼图的图片丢给模型让它分析数据趋势。
这是Gemini 3.5提升最明显的场景之一。以前的模型看图表经常只描述"上升趋势""下降趋势"这种粗粒度结论。Gemini 3.5能读出具体的数据点——"从Q1的120万增长到Q3的185万,增幅约54%,其中Q2到Q3的增长最为显著"。
实测下来数据点的读取准确度在85%到90%左右。不是100%但对快速分析来说够用了。
但有一个限制:图表的分辨率会影响识别准确度。低分辨率的截图数据点经常读错。建议在传入图表时尽量保证清晰度。
InfoQ此前的测评也验证了类似结论:多模态模型对图片质量的敏感度比文本输入对上下文质量的敏感度更高。
场景三:代码截图识别
手机拍了一段白板上的代码或者同事发了一张代码截图,需要把代码提取出来。
Gemini 3.5在这个场景下的表现不错。大部分主流编程语言的代码截图识别准确率在90%以上。Python、JavaScript、Java这些常见语言基本没问题。
但手写代码的识别准确率明显低于打印代码。白板上手写的代码识别率大概在60%到70%,主要错误集中在变量名和符号上——比如把"l"识别成"1",把"O"识别成"0"。
跟GPT-5.5的对比:打印代码识别两者差距不大。手写代码GPT-5.5稍好一点但差距也不明显。这个场景下两个模型的瓶颈都在OCR精度上而不是语义理解上。
场景四:视频内容理解
Gemini 3.5支持视频输入是这次升级中最大的亮点之一。
测了一段15分钟的技术演讲视频。它能准确识别演讲者的PPT内容、提取关键观点、标注时间戳。输出的结构化摘要质量让我比较满意。
但视频处理有两个明显的限制。
第一是时长限制。超过30分钟的视频处理时间明显变长而且后半部分的提炼质量开始下降。这跟长文本处理的质量衰减是类似的问题。
第二是信息密度。技术演讲这种信息密度高的视频效果好。但如果是低信息密度的视频比如会议录像中大量的沉默和跑题讨论,它的提炼效果就不太理想——分不清哪些是有价值的内容哪些是噪音。
场景五:音频转写与理解
Gemini 3.5的音频处理能力也在这次升级中有所提升。
中文语音转写的准确率比前代有改善。以前的痛点是技术术语经常转写错误——"Kubernetes"可能变成"酷伯奈提斯","Redis"可能变成"瑞迪斯"。新版本在技术术语的识别上好了很多。
但方言和口音重的语音转写准确率还是不太行。普通话带地方口音的转写错误率明显高于标准普通话。
跟专业语音转写工具对比:在标准普通话场景下Gemini 3.5的转写质量已经接近专业工具的水平。但在嘈杂环境、多人同时说话、方言等复杂场景下还是有差距。
跟其他多模态模型的对比
同一个测试集分别跑了Gemini 3.5、GPT-5.5和Claude。
图片理解:Gemini 3.5在结构化图片(架构图、流程图、图表)的理解上最好。GPT-5.5在自然图片(照片、场景图)的理解上最好。Claude在两者之间。
视频处理:Gemini 3.5领先明显。GPT-5.5目前的视频支持还比较有限。Claude在视频方面还没有正式支持。
音频处理:差距不大。三者在标准语音转写上的表现接近。但Gemini 3.5在技术术语的识别上稍微好一些。
综合搭配建议:图表和架构图分析用Gemini 3.5,自然图片理解用GPT-5.5,长视频分析用Gemini 3.5分段处理,语音转写用专业工具然后用AI做后续分析。
几个通用的坑
不管用哪个模型的多模态能力都有几个通用的坑。
图片分辨率直接影响识别质量。低分辨率的图片识别结果不可靠。建议传入的图片至少保证720p以上。
多模态输入比纯文本输入消耗更多的token。成本会明显增加。批量处理时需要考虑成本因素。
模型对图片中的文字和图片中的视觉元素是用不同的能力处理的。有时候文字识别准但视觉关系理解错,有时候反过来。关键场景下两种信息要分别验证。
趋势判断
Gemini 3.5在多模态上的迭代方向很明确:从"能处理"到"处理得好"。GPT-5.5也在补齐多模态短板。多模态能力正在从加分项变成标配。
未来的方向可能是实时多模态——模型能实时处理摄像头画面和麦克风输入。这会打开很多新的应用场景。
当前阶段多模态能力最适合的场景是"辅助人类做快速判断"。比如快速分析一张图表、提取视频中的关键信息、识别截图中的代码。完全依赖多模态AI做精确判断还不现实。
先在对精度要求不高的场景上用起来,积累经验后再逐步扩展到更关键的场景。这个顺序适用于所有多模态AI的落地实践。