CVPR 2026 | 小米×武大3B模型学会共情，暴打一众强化学习基线-开发者社区

本文介绍的研究来自 CVPR 2026，作者团队来自小米大模型 Plus 团队与武汉大学计算机学院。武汉大学团队在视觉理解、多模态推理和情绪计算方面积累深厚，小米大模型 Plus 团队则在大模型训练、强化学习框架和工程化落地方面经验丰富。

过去一段时间，多模态大模型（MLLMs）的进展主要集中在视觉问答、图像描述、跨模态生成等「认知型」任务上。

但如果大模型的能力只停留在「看懂世界」，那它离真正的类人智能还差一个关键维度。

真正更值得追问的问题是：模型能不能不只是「看见」画面，而是「感受」画面——理解一张图像背后的情绪因果链，像人一样先观察、再共情、最后判断？

近期，武汉大学与小米大模型 Plus 团队联合提出的 EMO-R3 尝试去回答上述问题。

从结果上看，这条路线确实带来了实际性能收益：EMO-R3 基于仅 3B 参数的 Qwen2.5-VL-3B-Instruct，在域内和域外情绪推理任务上均显著超越 GRPO、DAPO 等当前最强的强化学习基线。

这说明，情绪理解的瓶颈不在于模型参数量，而在于训练范式是否与情绪认知的内在结构相匹配。只要给模型植入正确的推理框架和反思机制，即使是轻量模型也能展现出远超基线的情绪推理能力。

论文地址：

https://arxiv.org/abs/2602.23802

重新思考情绪理解的价值与存在的问题

现有多数将强化学习应用于情绪任务的方法，仍然停留在把通用 RL 框架直接搬来用的阶段——用 GRPO 训练情绪模型，就像用数学题的做题方法去做阅读理解。

EMO-R3 想推动大家重新思考这个方向的目标函数：情绪理解不是一个简单的分类问题，而是一个需要结构化推理的任务。

人类判断情绪时会经历从「看见什么」到「感受到什么」再到「做出判断」的完整认知链条，而现有方法完全没有建模这个过程。

换句话说，情绪 AI 最值得做的事，是让模型像人一样经历「先观察、再感受、最后判断」的推理过程，而不是把「贴对标签」本身当作终点。

〓图1. 动机说明：a) SFT 依赖人类注释，受限于固定标签和有限类别，导致泛化和可解释性差。它在「风景-敬畏」等域内配对上表现良好，但在域外或未见过的情况下（如「运动-惊喜」）表现不佳；b) GRPO 虽提高了泛化能力，但其思维过程不以情感为导向，与最终答案联系薄弱（如推理过程得出「娱乐」，预测却是「恐惧」）。

基于这一观察，EMO-R3 揭示了现有方法的两个结构性缺陷。

首先是 SFT 的「死记硬背」问题。监督微调在情绪任务中看似有效，但它学到的往往只是训练数据分布内的情感—场景对应关系，而不是真正理解图像中情绪产生的原因。

比如，若训练集中缺少“惊讶”这类情绪，模型在测试时就很难准确识别相关样本；同样，如果训练数据主要集中在风景场景，模型也往往难以泛化到动作等其他场景中的情绪表达。

也就是说，SFT 更擅长拟合“见过的分布” ，一旦遇到超出训练分布的组合，性能就会明显下降。图 1(a) 展示的正是这种典型局限：模型能够给出答案，却缺乏跨场景、跨情绪的泛化能力，同时也无法解释具体的原因。

第二是 GRPO 在情绪任务中「无法适应」问题。GRPO 在数学推理中表现出色，一个关键原因是这类任务中推理过程与最终答案高度耦合：只要中间推错一步，答案通常也会随之出错。

但情绪理解并非如此。正如图 1(b) 所示，模型即使生成了一段与情绪判断并不一致、甚至偏离图像内容的推理，也仍有可能凭借偶然匹配猜中标签，从而获得奖励。

与此同时，通用 GRPO 所生成的推理过程往往遵循的是一般性 reasoning pattern，而不是人类进行情绪理解时更自然的认知路径，这进一步导致模型难以形成可靠的情绪推理能力。

也正因为如此，通用强化学习框架在情绪任务上集体「水土不服」，不是因为 RL 本身不好用，而是情绪推理有着与数学推理截然不同的内在结构——推理链与答案之间是弱耦合的，只奖励答案无法约束推理过程。

EMO-R3 的模型设计

〓图2. EMO-R3 的完整架构。上半部分为结构化情感推理提示词模块，包含三步递进式推理流程，并最终输出情感答案。下半部分展示反思式情感奖励机制：该机制对多组推演样本进行评估，综合考量图文一致性与情感逻辑连贯性，并在 GRPO 框架下，结合原有格式奖励与精度奖励完成联合优化。

围绕这一目标，EMO-R3 主要包含三个关键设计。

首先是 Structured Emotional Thinking（SET）——让模型模拟人类的情绪认知。

传统 GRPO 中模型的思考过程是完全自由的，生成的 think 文本往往碎片化、与情绪无关、缺乏逻辑连贯性。SET 将这种自由散漫的思考过程约束为模拟人类情绪认知的三步结构。

第一步是情绪触发识别：模型必须指出图像中哪些具体的视觉元素（表情、动作、色调、环境）可能触发情绪反应。

第二步是人类情绪反应：模型需要描述人类看到这些元素后会产生怎样的情绪体验——是紧张、放松、愉悦还是不安。

第三步是情绪结论：把前两步的推理结果整合为最终判断，包括情绪极性（正/负）和唤醒度（高/低）。

这三步对应认知心理学中情绪产生的三个阶段：感知刺激、情绪唤起、认知评价。

通过强制模型遵循这个结构，每一步思考都有了明确的语义，不再是东一句西一句的自由散漫。更重要的是，这个结构为下一步的「质量检查」提供了可操作的基础。

第二是 Reflective Emotional Reward（RER）——让模型学会反思自己的推理。

让模型模拟人类的情绪认知还不够，模型可能按格式写了三步，内容却全是胡说八道。RER 的核心思想非常直接：既然推理链不可靠，那就让模型自己检查自己。

RER 由两部分组成。图文一致性检查把 Step 1 的描述和原图一起送回模型，让它判断「这段视觉描述跟图片对得上吗？」对得上给分，对不上扣分，从源头杜绝「编造视觉内容」。

情绪连贯性检查则把 Step 1 和 Step 2 合在一起送回模型，问「根据这段推理，应该是什么情绪？」推出的情绪跟标准答案一致就给分，不一致就扣分，保证推理链和结论之间的逻辑绑定。

这意味着，RER 把奖励信号从「答案对不对」扩展到了「推理过程对不对」——这是情绪任务第一次真正实现对推理链质量的直接监督，而不是只靠答案间接约束。

第三是 Cold-Start-Emo 冷启动策略。

预训练模型自带的情绪常识往往与下游数据集的标注标准对不上。比如模型觉得「独自散步」是忧伤的，数据集却标注为「平静」。如果直接上强化学习，大量奖励信号会因为这种错位而失效，训练陷入恶性循环。

Cold-Start-Emo 用少量样本做一次极轻量的微调，只为让模型快速理解「这个任务的标签长什么样」——不教它怎么推理，只教它任务格式和标签体系，然后把真正的推理能力交给 RL 去打磨。

实验结果

EMO-R3 的实验覆盖了 in-domain 和 out-of-domain 两类场景。

研究团队选择了三个经典的视觉情绪数据集：EmoSet（8 类）、Emotion6（6 类）和 WebEmo（7 类），并分别在 EmoSet 和 Emotion6 上进行训练，再在其他数据集上测试跨域表现。

基础模型采用 Qwen2.5-VL-3B-Instruct，对比方法包括 Vanilla（无训练）、SEPM（训练-free 方法）、GRPO 和 DAPO 等强化学习范式。

〓图3：EMO-R3 与最先进 GRPO 变体在域内和域外情绪推理任务上的性能对比。标有上标 I 的数据集（如 EmoSet^I 和 Emotion6^I）表示域内训练数据集。EMO-R3 在所有设置下均取得最佳表现。

实验结果表明EMO-R3 能够在整体性能上带来稳定且一致的提升。这说明，结构化推理与反思式奖励确实增强了模型的泛化能力——情绪推理不再是「记住训练集的标签分布」，而是真正学会了如何推理情绪。

〓图4：训练过程中的训练和测试准确率曲线。EMO-R3 整体优于其他两个基线模型。

训练稳定性也大幅提升，RER 的引入有效减少了 GRPO 在情绪任务中的震荡与不收敛问题。

〓图5：同一张图片，GRPO 和 EMO-R3 的推理对比。

为了更直观地展示 EMO-R3 的推理质量提升，论文给出了一组典型案例对比。

场景是一个人坐在开满花的树下，背景是平静的水面，正确情绪是「contentment（满足）」。GRPO 的推理过程写了「场景平静、人物在享受自然」——逻辑完全指向积极情绪，然后最终答案一拍脑门选了「sadness」。

而 EMO-R3 严格按三步结构推理：先识别花朵盛开和人物放松的状态，再描述由此产生的平和与安宁感受，最终自然而然地得出「contentment」。

这一案例表明 EMO-R3 能够准确捕捉细微的情感线索，并展现出情绪连贯的推理，从而实现更好的情绪理解。

这说明，当推理过程必须经得起「自我检查」时，模型就没法再用碎片化的文字敷衍了事。RER 反思机制让推理链从「随便写写」变成了「有结构、有逻辑、有依据」。

〓图6：训练过程的效率分析

在训练效率方面，RER 的引入大约增加 1.26 倍训练时间，主要来自对每个 rollout 多做两次前向推理。

但有两个关键点：第一，推理阶段完全不需要反思模块，部署后的模型跟普通模型一样快；第二，对比 DAPO 训练到一半崩溃白白浪费全部算力，多花 26% 换来稳定收敛，这笔账怎么算都划算。

从更大的角度看，EMO-R3 想推动大家重新思考情绪理解的训练范式。它不应该只是把通用 RL 搬过来用，而应该从任务本身的认知结构出发，设计与之匹配的推理框架和奖励机制。

EMO-R3 做的三件事——定义推理应该长什么样（SET）、确保推理过程经得起检验（RER）、解决从零开始的冷启动问题（Cold-Start-Emo）——构成了一套完整的方法论。

这套思路不局限于情绪任务：美学评价、道德判断、文化理解……任何推理链与答案弱耦合的主观任务，都可能从中受益。

对情绪智能来说，真正重要的，也许从来不是「识别情绪」，而是能不能像人一样，先看见、再感受、最后才判断。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以markdown格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

CVPR 2026 | 小米×武大3B模型学会共情，暴打一众强化学习基线

ARM CTI寄存器安全机制与调试接口防护

观察Taotoken在流量高峰时段API调用的成功率和响应表现

华硕笔记本终极性能调校指南：G-Helper完整使用教程

Midjourney玩具相机风格生成卡顿、细节崩坏、色彩断层？紧急修复指南：GPU显存占用优化+--q 2强制重采样应急协议

别急着做 Agent

Cursor Free VIP：告别试用限制，永久免费解锁AI编程助手