news 2026/5/16 13:45:09

CVPR 2026 | 小米×武大3B模型学会共情,暴打一众强化学习基线

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CVPR 2026 | 小米×武大3B模型学会共情,暴打一众强化学习基线

本文介绍的研究来自 CVPR 2026,作者团队来自小米大模型 Plus 团队与武汉大学计算机学院。武汉大学团队在视觉理解、多模态推理和情绪计算方面积累深厚,小米大模型 Plus 团队则在大模型训练、强化学习框架和工程化落地方面经验丰富。

过去一段时间,多模态大模型(MLLMs)的进展主要集中在视觉问答、图像描述、跨模态生成等「认知型」任务上。

但如果大模型的能力只停留在「看懂世界」,那它离真正的类人智能还差一个关键维度。

真正更值得追问的问题是:模型能不能不只是「看见」画面,而是「感受」画面——理解一张图像背后的情绪因果链,像人一样先观察、再共情、最后判断?

近期,武汉大学与小米大模型 Plus 团队联合提出的 EMO-R3 尝试去回答上述问题。

从结果上看,这条路线确实带来了实际性能收益:EMO-R3 基于仅 3B 参数的 Qwen2.5-VL-3B-Instruct,在域内和域外情绪推理任务上均显著超越 GRPO、DAPO 等当前最强的强化学习基线。

这说明,情绪理解的瓶颈不在于模型参数量,而在于训练范式是否与情绪认知的内在结构相匹配。只要给模型植入正确的推理框架和反思机制,即使是轻量模型也能展现出远超基线的情绪推理能力。

论文地址:

https://arxiv.org/abs/2602.23802

重新思考情绪理解的价值与存在的问题

现有多数将强化学习应用于情绪任务的方法,仍然停留在把通用 RL 框架直接搬来用的阶段——用 GRPO 训练情绪模型,就像用数学题的做题方法去做阅读理解。

EMO-R3 想推动大家重新思考这个方向的目标函数:情绪理解不是一个简单的分类问题,而是一个需要结构化推理的任务。

人类判断情绪时会经历从「看见什么」到「感受到什么」再到「做出判断」的完整认知链条,而现有方法完全没有建模这个过程。

换句话说,情绪 AI 最值得做的事,是让模型像人一样经历「先观察、再感受、最后判断」的推理过程,而不是把「贴对标签」本身当作终点。

〓 图1. 动机说明:a) SFT 依赖人类注释,受限于固定标签和有限类别,导致泛化和可解释性差。它在「风景-敬畏」等域内配对上表现良好,但在域外或未见过的情况下(如「运动-惊喜」)表现不佳;b) GRPO 虽提高了泛化能力,但其思维过程不以情感为导向,与最终答案联系薄弱(如推理过程得出「娱乐」,预测却是「恐惧」)。

基于这一观察,EMO-R3 揭示了现有方法的两个结构性缺陷。

首先是 SFT 的「死记硬背」问题。监督微调在情绪任务中看似有效,但它学到的往往只是训练数据分布内的情感—场景对应关系,而不是真正理解图像中情绪产生的原因。

比如,若训练集中缺少“惊讶”这类情绪,模型在测试时就很难准确识别相关样本;同样,如果训练数据主要集中在风景场景,模型也往往难以泛化到动作等其他场景中的情绪表达。

也就是说,SFT 更擅长拟合“见过的分布” ,一旦遇到超出训练分布的组合,性能就会明显下降。图 1(a) 展示的正是这种典型局限:模型能够给出答案,却缺乏跨场景、跨情绪的泛化能力,同时也无法解释具体的原因。

第二是 GRPO 在情绪任务中「无法适应」问题。GRPO 在数学推理中表现出色,一个关键原因是这类任务中推理过程与最终答案高度耦合:只要中间推错一步,答案通常也会随之出错。

但情绪理解并非如此。正如图 1(b) 所示,模型即使生成了一段与情绪判断并不一致、甚至偏离图像内容的推理,也仍有可能凭借偶然匹配猜中标签,从而获得奖励。

与此同时,通用 GRPO 所生成的推理过程往往遵循的是一般性 reasoning pattern,而不是人类进行情绪理解时更自然的认知路径,这进一步导致模型难以形成可靠的情绪推理能力。

也正因为如此,通用强化学习框架在情绪任务上集体「水土不服」,不是因为 RL 本身不好用,而是情绪推理有着与数学推理截然不同的内在结构——推理链与答案之间是弱耦合的,只奖励答案无法约束推理过程。

EMO-R3 的模型设计

〓 图2. EMO-R3 的完整架构。上半部分为结构化情感推理提示词模块,包含三步递进式推理流程,并最终输出情感答案。下半部分展示反思式情感奖励机制:该机制对多组推演样本进行评估,综合考量图文一致性与情感逻辑连贯性,并在 GRPO 框架下,结合原有格式奖励与精度奖励完成联合优化。

围绕这一目标,EMO-R3 主要包含三个关键设计。

首先是 Structured Emotional Thinking(SET)——让模型模拟人类的情绪认知。

传统 GRPO 中模型的思考过程是完全自由的,生成的 think 文本往往碎片化、与情绪无关、缺乏逻辑连贯性。SET 将这种自由散漫的思考过程约束为模拟人类情绪认知的三步结构。

第一步是情绪触发识别:模型必须指出图像中哪些具体的视觉元素(表情、动作、色调、环境)可能触发情绪反应。

第二步是人类情绪反应:模型需要描述人类看到这些元素后会产生怎样的情绪体验——是紧张、放松、愉悦还是不安。

第三步是情绪结论:把前两步的推理结果整合为最终判断,包括情绪极性(正/负)和唤醒度(高/低)。

这三步对应认知心理学中情绪产生的三个阶段:感知刺激、情绪唤起、认知评价。

通过强制模型遵循这个结构,每一步思考都有了明确的语义,不再是东一句西一句的自由散漫。更重要的是,这个结构为下一步的「质量检查」提供了可操作的基础。

第二是 Reflective Emotional Reward(RER)——让模型学会反思自己的推理。

让模型模拟人类的情绪认知还不够,模型可能按格式写了三步,内容却全是胡说八道。RER 的核心思想非常直接:既然推理链不可靠,那就让模型自己检查自己。

RER 由两部分组成。图文一致性检查把 Step 1 的描述和原图一起送回模型,让它判断「这段视觉描述跟图片对得上吗?」对得上给分,对不上扣分,从源头杜绝「编造视觉内容」。

情绪连贯性检查则把 Step 1 和 Step 2 合在一起送回模型,问「根据这段推理,应该是什么情绪?」推出的情绪跟标准答案一致就给分,不一致就扣分,保证推理链和结论之间的逻辑绑定。

这意味着,RER 把奖励信号从「答案对不对」扩展到了「推理过程对不对」——这是情绪任务第一次真正实现对推理链质量的直接监督,而不是只靠答案间接约束。

第三是 Cold-Start-Emo 冷启动策略。

预训练模型自带的情绪常识往往与下游数据集的标注标准对不上。比如模型觉得「独自散步」是忧伤的,数据集却标注为「平静」。如果直接上强化学习,大量奖励信号会因为这种错位而失效,训练陷入恶性循环。

Cold-Start-Emo 用少量样本做一次极轻量的微调,只为让模型快速理解「这个任务的标签长什么样」——不教它怎么推理,只教它任务格式和标签体系,然后把真正的推理能力交给 RL 去打磨。

实验结果

EMO-R3 的实验覆盖了 in-domain 和 out-of-domain 两类场景。

研究团队选择了三个经典的视觉情绪数据集:EmoSet(8 类)、Emotion6(6 类)和 WebEmo(7 类),并分别在 EmoSet 和 Emotion6 上进行训练,再在其他数据集上测试跨域表现。

基础模型采用 Qwen2.5-VL-3B-Instruct,对比方法包括 Vanilla(无训练)、SEPM(训练-free 方法)、GRPO 和 DAPO 等强化学习范式。

〓 图3:EMO-R3 与最先进 GRPO 变体在域内和域外情绪推理任务上的性能对比。标有上标 I 的数据集(如 EmoSet^I 和 Emotion6^I)表示域内训练数据集。EMO-R3 在所有设置下均取得最佳表现。

实验结果表明EMO-R3 能够在整体性能上带来稳定且一致的提升。这说明,结构化推理与反思式奖励确实增强了模型的泛化能力——情绪推理不再是「记住训练集的标签分布」,而是真正学会了如何推理情绪。

〓 图4:训练过程中的训练和测试准确率曲线。EMO-R3 整体优于其他两个基线模型。

训练稳定性也大幅提升,RER 的引入有效减少了 GRPO 在情绪任务中的震荡与不收敛问题。

图5:同一张图片,GRPO 和 EMO-R3 的推理对比。

为了更直观地展示 EMO-R3 的推理质量提升,论文给出了一组典型案例对比。

场景是一个人坐在开满花的树下,背景是平静的水面,正确情绪是「contentment(满足)」。GRPO 的推理过程写了「场景平静、人物在享受自然」——逻辑完全指向积极情绪,然后最终答案一拍脑门选了「sadness」。

而 EMO-R3 严格按三步结构推理:先识别花朵盛开和人物放松的状态,再描述由此产生的平和与安宁感受,最终自然而然地得出「contentment」。

这一案例表明 EMO-R3 能够准确捕捉细微的情感线索,并展现出情绪连贯的推理,从而实现更好的情绪理解。

这说明,当推理过程必须经得起「自我检查」时,模型就没法再用碎片化的文字敷衍了事。RER 反思机制让推理链从「随便写写」变成了「有结构、有逻辑、有依据」。

图6:训练过程的效率分析

在训练效率方面,RER 的引入大约增加 1.26 倍训练时间,主要来自对每个 rollout 多做两次前向推理。

但有两个关键点:第一,推理阶段完全不需要反思模块,部署后的模型跟普通模型一样快;第二,对比 DAPO 训练到一半崩溃白白浪费全部算力,多花 26% 换来稳定收敛,这笔账怎么算都划算。

从更大的角度看,EMO-R3 想推动大家重新思考情绪理解的训练范式。它不应该只是把通用 RL 搬过来用,而应该从任务本身的认知结构出发,设计与之匹配的推理框架和奖励机制。

EMO-R3 做的三件事——定义推理应该长什么样(SET)、确保推理过程经得起检验(RER)、解决从零开始的冷启动问题(Cold-Start-Emo)——构成了一套完整的方法论。

这套思路不局限于情绪任务:美学评价、道德判断、文化理解……任何推理链与答案弱耦合的主观任务,都可能从中受益。

对情绪智能来说,真正重要的,也许从来不是「识别情绪」,而是能不能像人一样,先看见、再感受、最后才判断。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/16 13:40:11

ARM CTI寄存器安全机制与调试接口防护

1. ARM CTI寄存器安全机制深度解析在嵌入式系统开发中,调试接口的安全性和可控性至关重要。ARM架构通过Cross-Trigger Interface(CTI)寄存器提供了一套精细的访问控制机制,特别是CTILAR(CTI Lock Access Register)和CTILSR(CTI Lock Status Register)这对…

作者头像 李华
网站建设 2026/5/16 13:40:10

观察Taotoken在流量高峰时段API调用的成功率和响应表现

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 观察Taotoken在流量高峰时段API调用的成功率和响应表现 在构建依赖大模型能力的应用时,服务的稳定性与可靠性是核心考量…

作者头像 李华
网站建设 2026/5/16 13:40:10

华硕笔记本终极性能调校指南:G-Helper完整使用教程

华硕笔记本终极性能调校指南:G-Helper完整使用教程 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zenbook, Exper…

作者头像 李华
网站建设 2026/5/16 13:38:16

别急着做 Agent

别急着做 Agent 这句话听起来像给 Agent 泼冷水,其实更像给项目踩刹车。很多团队做 AI 应用失败,常常因为一开始就把一个没梳理清楚的业务流程交给模型自由发挥。 我见过最典型的场景,是老板说想要一个销售 Agent,能自动找客户、写…

作者头像 李华
网站建设 2026/5/16 13:36:14

Cursor Free VIP:告别试用限制,永久免费解锁AI编程助手

Cursor Free VIP:告别试用限制,永久免费解锁AI编程助手 【免费下载链接】cursor-free-vip [Support 0.45](Multi Language 多语言)自动注册 Cursor Ai ,自动重置机器ID , 免费升级使用Pro 功能: Youve reac…

作者头像 李华