news 2026/5/10 14:20:16

港中文美团提出OneThinker:视觉推理通才模型!图像视频10类任务一网打尽

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
港中文美团提出OneThinker:视觉推理通才模型!图像视频10类任务一网打尽

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!

OneThinker团队 投稿
转载自:量子位(QbitAI)

横扫31个主流基准、拿捏10类核心任务,视觉模型界的“通才”来了!

香港中文大学MMLab与美团研究团队开源提出OneThinker——一个基于RL的统一多模态视觉推理通才模型,覆盖图像与视频两种模态下的十类核心视觉任务。

在31项主流视觉任务测试中,OneThinker均表现亮眼。它不仅能在多任务训练中实现相互促进,还能在从未见过的任务上做出合理推理,初步展现了通才模型的泛化能力。

虽然以Vision-R1、Video-R1、VLM-R1等为代表的工作,已经在图像问答、视频理解、目标检测等任务上取得显著效果。

但这类RL模型大部分存在一个限制:只能处理单一模态或单一任务。模态、任务之间缺乏关联,推理能力被割裂,难以泛化应用。

来看看OneThinker是如何做的。

从“专才模型”到“通才系统”

现实世界中的视觉数据复杂多样,往往同时包含静态图像与动态视频信息。同时,视觉任务类型也高度多样化,例如问答、定位、分割、追踪等。

在这种背景下,传统的“单任务、单模态”RL思考模型架构存在以下两个根本性问题:

  1. 无法统一建模现实复杂场景

    真实应用中往往需要同时理解图像与视频内容,并完成多类任务协同,专才模型难以满足。

  2. 知识隔离,迁移受限

    模型之间彼此独立,缺乏知识共享机制,限制了推理能力在任务之间的泛化与迁移。

为了解决这一问题,研究团队提出了一个“通才思考模型”OneThinker,具备统一理解和推理不同模态、任务的能力。

为了让OneThinker真正具备统一推理不同模态和任务的能力,研究团队从两方面入手:一是构建统一的数据体系,二是优化多任务的训练方法。

多模态统一任务数据构建

构建具备通用视觉推理能力的模型,首先需要解决数据覆盖不足、任务割裂的问题。

为此,研究团队精心搭建了一套数据集,分别用于模型的SFT冷启动与强化学习训练:

  • OneThinker-600k

    覆盖图像与视频两种模态,涵盖图像问答、视频问答、时空定位、分割、跟踪等十类核心视觉任务,用于强化学习阶段的主力训练数据。

  • OneThinker-SFT-340k

    基于Seed1.5-VL对OneThinker-600k生成高质量的思维链样本并过滤,用于SFT阶段冷启动

通过图像与视频任务的联合训练,OneThinker能够在空间与时间维度上建立统一的推理能力,从而实现跨模态、多任务的通用理解。

EMA-GRPO:提升多任务RL训练稳定性

传统强化学习方法在多任务、多模态场景中存在显著训练不平衡问题。

不同任务之间的奖励结构差异较大(如检测任务的奖励稠密,而问答类任务往往稀疏),容易导致样本间或任务间训练不平衡的问题。

为此,OneThinker引入了全新的EMA-GRPO(Exponential Moving Average Group Relative Policy Optimization) 强化训练算法,通过对各任务奖励标准差进行滑动平均归一,解决了两个层面的不平衡问题:

  • 任务内样本权重不均:缓解模型对低方差样本的过度依赖;

  • 任务间梯度贡献失衡:防止稀疏任务在反向传播中占据主导,抑制其他任务学习。

实验结果表明,EMA-GRPO能显著提升强化学习阶段的训练稳定性与收敛速度,为大规模统一推理模型的多任务训练提供了有效支撑。

实验结果

为了全面评估OneThinker的能力,研究团队在图像与视频两个模态下不同任务的31个主流 benchmark上进行了系统测试,覆盖图像问答、视频理解、空间定位、时间定位、目标分割、目标追踪等10类核心视觉任务。

OneThinker在图像问答任务中表现出色,MMMU达到70.6%,MathVerse达到64.3%,在视频理解上,VideoMMM取得了66.2%的表现。

对于时间定位和空间定位任务中,模型在RefCOCO testA的空间定位任务中也取得了93.7%的高分,Charades和ActivityNet的R@0.5分别达到68.3和43.6。

同时,OneThinker在追踪任务GOT-10k上AO达到73.0, 在视频分割任务ReasonVOS上J&F得分为54.9,体现了其在感知类任务中的稳健表现,更多的任务表现请参考原文。

研究团队还发现,在某些任务和模态之间,OneThinker能实现有效的知识迁移与共享,不同任务之间相互促进。

同时,OneThinker在未见任务上展现出零样本能力,能直接适应如点追踪、图像质量评估、GUI理解和旋转目标检测等任务,体现出强大的任务泛化能力。

可以说,OneThinker的推出,不仅展示了强化学习在统一多模态、多任务视觉推理上的潜力,也为构建真正的视觉通才模型提供了清晰的路径。

在大模型不断走向多模态、强推理、通才化的趋势下,OneThinker的工作或许只是一个起点,但它所验证的方向,正在成为通往通用视觉智能(AGI)的关键一环。

更多细节,请参考原文。

论文地址:https://arxiv.org/pdf/2512.03043
代码地址:https://github.com/tulerfeng/OneThinker

本文系学术转载,如有侵权,请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ICCV 2025 论文和代码下载

在CVer公众号后台回复:ICCV2025,即可下载ICCV 2025论文和代码开源的论文合

CVPR 2025 论文和代码下载

在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 11:02:50

挖到 4 个 Vibe Coding 的 GitHub 开源项目,速速收藏。

Andrej Karpathy 是 OpenAI 创始成员、前特斯拉 AI 总监。他年初在 X 上发布了一条推文,分享了自己使用 Cursor Claude 进行编程的体验,并首次使用了 Vibe Coding 这个词。Vibe Coding 是一种全新的、基于 AI 的编程方式。你通过对话的方式和 AI 协作&a…

作者头像 李华
网站建设 2026/5/10 13:27:12

5分钟掌握Visual Studio许可证管理的终极解决方案

想要轻松管理Visual Studio Community Edition的许可证有效期吗?今天我们将通过PowerShell模块实现VS社区版延期的自动化操作,彻底告别许可证过期的烦恼。 【免费下载链接】VSCELicense PowerShell module to get and set Visual Studio Community Editi…

作者头像 李华
网站建设 2026/5/5 22:17:23

4、深入探索GIMP:画笔、图案与选区的运用

深入探索GIMP:画笔、图案与选区的运用 1. 画笔的使用 1.1 画笔设置 在使用绘画和绘图工具(如铅笔、画笔、橡皮擦、喷枪)时,可通过“文件 - 对话框 - 画笔”打开画笔选择窗口。在该窗口左侧,有各种预装的画笔笔尖,大小和形状各异,从微小圆形笔尖到纹理笔尖,甚至由图像…

作者头像 李华
网站建设 2026/5/7 3:26:36

Cube-Studio:企业级AI模型部署平台的架构与实践

Cube-Studio:企业级AI模型部署平台的架构与实践 【免费下载链接】cube-studio cube studio开源云原生一站式机器学习/深度学习AI平台,支持sso登录,多租户/多项目组,数据资产对接,notebook在线开发,拖拉拽任…

作者头像 李华
网站建设 2026/4/30 23:34:25

10、炫酷文本效果与网页图形设计全攻略

炫酷文本效果与网页图形设计全攻略 1. 炫酷文本效果 1.1 文本效果的魅力与由来 将简单文本转化为艺术作品由来已久,最早可追溯到大约公元前 2500 年的书法艺术。这么做的目的很明确,就是为了吸引和聚焦人们对特定单词或词组的注意力。例如,设计标志或网页标题时,我们希望…

作者头像 李华
网站建设 2026/4/30 22:54:59

Whistle网络调试抓包分析终极指南:快速上手跨平台调试工具

Whistle网络调试抓包分析终极指南:快速上手跨平台调试工具 【免费下载链接】whistle-client HTTP, HTTP2, HTTPS, Websocket debugging proxy client 项目地址: https://gitcode.com/gh_mirrors/wh/whistle-client 在当今复杂的网络应用开发环境中&#xff0…

作者头像 李华