【中国科学技术大学-吴枫-ICLR26】CapRL: 通过强化学习激发密集图像描述能力-开发者社区

文章：CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

代码：https://github.com/InternLM/CapRL

单位：中国科学技术大学、上海人工智能实验室、香港中文大学、上海创新研究院、阿里云

一、问题背景

图像描述（给图片写文字说明）是连接视觉与语言的核心任务，不管是训练大型视觉语言模型，还是落地到图文检索、无障碍辅助等场景都离不开它。但目前主流的训练方法（监督微调SFT）存在明显短板：一方面要依赖大量人工或专有模型标注的数据，成本高还难扩展；另一方面模型会死记硬背固定描述，没法灵活生成多样化、有创意的内容。更关键的是，“好的图片描述”本身很主观，之前的评估方法要么容易被模型“钻空子”（比如故意写冗长或简短的文字讨好评价模型），要么没法准确衡量复杂描述的质量，导致模型进步受限。

二、方法创新

研究团队提出了一种名为CapRL的新框架，核心是把“主观的描述质量”变成“客观的可验证指标”，用强化学习（RLVR）思路解决问题，具体分两大关键点：

两阶段分离流程：先让视觉语言模型（LVLM）生成图片描述，再让一个“看不见图片”的纯语言模型（LLM），仅根据这个描述回答关于图片的多选题。纯语言模型的答题准确率，就是给生成描述的“客观奖励”——描述越全面准确，答题正确率越高，奖励就越多。
高质量数据支撑：构建了包含75k图像和对应多选题的数据集，确保问题必须靠分析图片内容才能回答，避免“靠常识答题”的情况；还打造了CapRL-5M数据集，用训练好的CapRL-3B模型给500万张图片标注描述，兼顾多样性和质量。
细节优化：为了避免偏见，每次提问都会打乱选项顺序；通过多次采样提问取平均，保证奖励的稳定性，让模型专注于提升描述质量而非钻漏洞。

三、实验结果

CapRL的表现让人惊喜，不管是数据规模还是模型能力都实现了突破：

数据集效果突出：用CapRL-1M（从5M数据中随机抽取）做预训练，在InfoVQA、DocVQA等12个基准测试中，大幅超越现有主流数据集，其中InfoVQA上比DenseFusion-1M高出6.8%。当数据扩大到5M时，性能还在稳步提升，展现出极强的扩展性。
模型能力越级：CapRL-3B（仅30亿参数）的描述质量，在Prism评估框架下堪比720亿参数的Qwen2.5-VL-72B，平均比基础模型高出8.4%；在图表、信息图理解上优势更明显，ChartQA、InfoVQA等任务的提升幅度均超过10%。
泛化能力强劲：哪怕只在图表类或自然图像类单一领域训练，CapRL也能在其他领域的测试中取得显著进步，不用专门适配就能应对多种场景。

四、优势与局限

优势

摆脱标注依赖：不用大量人工标注，靠模型自动生成高质量描述数据集，成本低且可扩展。
描述质量过硬：生成的内容更全面、准确，减少“凭空捏造”的情况，不管是自然图像还是复杂图表、信息图都能hold住。
奖励客观可靠：避免了传统评估的主观偏见和“奖励漏洞”，让模型真正朝着“提升描述实用性”的方向优化。
效率超高：哪怕每张图片只配1个多选题，也能让模型性能大幅提升，训练和部署成本可控。

局限

依赖高质量多选题：奖励的可靠性完全基于多选题的质量，若问题设计不合理，可能影响模型优化方向。
计算成本略高：两阶段流程需要额外调用纯语言模型做答题评估，相比单阶段生成，推理时耗时稍长。
极端场景适配不足：对于超复杂或抽象的图像，多选题可能难以覆盖所有关键信息，导致描述质量提升受限。

五、一句话总结

CapRL通过“描述生成+答题验证”的两阶段强化学习框架，把主观的图片描述质量转化为客观奖励，既解决了传统方法依赖人工标注、描述单一的问题，又实现了模型能力的越级提升，为视觉语言模型的预训练和图像描述任务提供了更高效、更可靠的新方案。

Phi-3-mini-4k-instruct推理优化教程：Ollama参数调优与响应速度提升

Phi-3-mini-4k-instruct推理优化教程：Ollama参数调优与响应速度提升 1. 为什么需要优化Phi-3-mini-4k-instruct的推理表现你可能已经试过用Ollama跑Phi-3-mini-4k-instruct，输入一个问题，等上好几秒才看到第一行字蹦出来——这种“卡顿感”…

李华

translategemma-27b-it应用场景：科研论文图表说明自动双语生成案例

translategemma-27b-it应用场景：科研论文图表说明自动双语生成案例 1. 为什么科研人员需要这个能力你有没有遇到过这样的情况：花三个月写完一篇高质量的科研论文，图表做得清清楚楚，文字描述也反复打磨，结果投稿到国…

李华

产品经理亲测：万物识别镜像让中文图像识别变得超简单

产品经理亲测：万物识别镜像让中文图像识别变得超简单上周三下午，我正为下周一的产品演示焦头烂额——老板临时要求在10分钟内现场展示“手机拍一张办公桌照片，自动识别出笔记本、咖啡杯、文件夹等物品并打上中文标签”的能力。团队里没有AI…

李华

HG-ha/MTools效果展示：AI视频摘要——30分钟网课自动生成5分钟精讲+时间戳字幕

HG-ha/MTools效果展示：AI视频摘要——30分钟网课自动生成5分钟精讲时间戳字幕 1. 开箱即用：第一眼就上头的AI视频处理工具你有没有过这样的经历：花一小时下载完一个网课视频，点开发现是30分钟纯讲解、无PPT、无重点标记、语速还…

李华

Glyph与DeepSeek-OCR对比：谁更适合你？

Glyph与DeepSeek-OCR对比：谁更适合你？ 在处理超长文档、技术手册、法律合同或学术论文时，你是否也遇到过这样的困境：模型明明支持128K上下文，但实际推理时卡顿严重、显存爆满、响应慢得像在等待咖啡煮好？更…

李华

高效掌握跨设备控制：Midscene.js多平台协同实战指南

高效掌握跨设备控制：Midscene.js多平台协同实战指南【免费下载链接】midscene Let AI be your browser operator. 项目地址: https://gitcode.com/GitHub_Trending/mid/midscene 在智能家居、多终端办公和物联网快速发展的今天，跨设备协同已成为…

李华