news 2026/1/23 20:29:15

多模态推理新范式:上海AI Lab新作证明“画”出答案比“说”出答案更靠谱

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
多模态推理新范式:上海AI Lab新作证明“画”出答案比“说”出答案更靠谱

在通往 AGI 的道路上,大语言模型(LLM)和多模态大模型(MLLM)的自回归架构似乎已经成为了“真理”。然而,这种基于一维序列的线性推理模式,在处理长程、视觉中心任务时,正暴露出明显的短板——它缺乏全局观,且难以纠错。

近日,上海人工智能实验室联合南京大学、香港中文大学及上海交通大学,在这个MLLM 统治的多模态推理领域撕开了一道口子。

他们提出的DiffThinker模型,并没有试图教会 MLLM 如何更好地“说话”,而是利用扩散模型(Diffusion Models)构建了一种全新的视觉推理范式,在视觉中心任务上,其准确率足以碾压 GPT-5 和 Gemini-3-Flash,以及同数据训练的Qwen3-VL-32B。

  • 论文地址:https://arxiv.org/pdf/2512.24165

  • 项目主页:https://diffthinker-project.github.io

  • 代码仓库:https://github.com/lcqysl/DiffThinker

逃离一维诅咒:为什么选 Diffusion?

当人类解决一个迷宫问题时,我们不会像 LLM 那样,在脑子里一行行地写出“先向左 3 步,再向上 2 步……”的文本代码。相反,我们会俯瞰全局,在瞬间构建出一条视觉路径。

这正是 DiffThinker 的核心洞见:复杂的视觉推理,不应被强行降维成符号序列。

扩散模型的“天赋”:原生并行推理

DiffThinker 的成功,很大程度上归功于扩散模型自带的物理特性。在推理的初始阶段(高噪声状态),DiffThinker 并不是像 LLM 那样只能试探一条路。相反,它在潜在空间中同时激活了多条可能的路径分布。随着去噪步数的推进,那些不符合约束条件的路径概率逐渐消失,模型自动收敛到最优解,实现了原生的并行推理(Native Parallel Reasoning)。

实验结果:碾压级的性能

研究团队在四个领域的七大任务上进行了系统评测,包括:

  • 长程规划:VSP, VSP-Super, Maze(迷宫)

  • 组合优化:TSP(旅行商问题)

  • 约束满足:Sudoku(数独)

  • 空间推理:Jigsaw(拼图), VisPuzzle

主要结果如下:

DiffThinker在所有任务上的平均得分高达87.4,而 GPT-5 仅为 21.1,Gemini-3-Flash 为 41.3。同数据训练的Qwen3-VL-32B也只有62.9。

1+1 > 2:DiffThinker与MLLM合作

扩散模型虽然直觉强,但会不会缺乏逻辑严密性?

DiffThinker 给出的方案是:协同推理(Collaborative Reasoning)。
在实验中,DiffThinker 扮演了“直觉系统”的角色,快速生成多个高置信度的候选视觉解;而 MLLM 则扮演“验证系统”,负责对这些视觉解进行校验。

结果显示,这种合作实现1+1>2的效果,超过各自单一模型。

结语

如果说 Transformer 代表了人类的逻辑与语言能力,那么 Diffusion Model 正逐渐展示出推理中所需的空间直觉与想象力。当两者真正结合,我们要面对的,可能才是真正的通用智能。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/15 19:14:57

1小时搭建ANTIGRAVITY登录状态监控看板

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 快速开发ANTIGRAVITY登录监控看板,要求:1. 对接平台API获取实时登录数据 2. 世界地图展示地域分布 3. 折线图显示成功率变化 4. 阈值触发多通道告警 5. 支持…

作者头像 李华
网站建设 2026/1/6 2:11:51

5分钟搭建计算机组成原理演示原型

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个快速生成计算机组成原理教学原型的工具,功能包括:1. 拖拽式组件库(CPU、内存、总线等);2. 一键生成基本电路图&…

作者头像 李华
网站建设 2026/1/13 17:25:09

5分钟搭建SQL注入演示原型:安全教育利器

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个极简的SQL注入演示原型生成器,用户只需提供基本参数(数据库表结构、示例数据),即可自动生成:1) 易受攻击的Web界…

作者头像 李华
网站建设 2026/1/23 12:44:04

零基础学习:用AI快速理解DDU工具

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个简单的DDU信息查询工具,功能包括:1. 显示DDU基本功能介绍 2. 查询最新版本号 3. 显示常见问题解答。使用Python的Flask框架开发Web界面&#xff0c…

作者头像 李华
网站建设 2026/1/6 2:10:55

Wi-Fi通信协议与LED显示屏控制原理图解

手机如何隔空“点亮”LED屏?Wi-Fi与显示驱动的硬核协奏曲你有没有想过,当你在手机App里敲下一句“开业大吉”,几百米外的LED大屏瞬间就亮起红字——这背后到底发生了什么?不是魔法,而是一场精密的软硬件交响&#xff1…

作者头像 李华
网站建设 2026/1/6 2:10:37

如何快速使用Poppler Windows版:PDF文档处理的完整指南

如何快速使用Poppler Windows版:PDF文档处理的完整指南 【免费下载链接】poppler-windows Download Poppler binaries packaged for Windows with dependencies 项目地址: https://gitcode.com/gh_mirrors/po/poppler-windows 还在为Windows系统上的PDF处理工…

作者头像 李华