浙江大学让机器人“用眼睛思考“：比文字快22倍的视觉推理新方案-开发者社区

这项由浙江大学、康奈尔大学、新加坡国立大学及西安电子科技大学联合开展的研究，以预印本形式发布于2026年5月28日，论文编号为arXiv:2605.30011，有兴趣深入探索的读者可以通过该编号查阅完整原文。

机器人能不能像人一样"看清楚再动手"？这个问题听起来简单，背后却藏着工程师们长久以来的心结。当你把一块蛋糕递给朋友时，你的大脑在零点几秒内完成了识别、定位、判断距离和预测路径这一整套动作，完全不需要先在脑子里默念一段文字再行动。然而现有的机器人系统，往往要么靠"背台词"——把推理过程转成一大段文字再输出动作，结果慢得像在晚高峰堵车；要么干脆跳过思考直接行动，结果一遇到复杂场景就手足无措。浙大团队这篇论文提出的VisualThink-VLA，走了一条完全不同的路：让机器人用图像来"想事情"，而不是用文字。

一、机器人的"思考之苦"：为什么越聪明越慢？

要理解这个问题，得先弄清楚现代机器人大脑的工作方式。今天最先进的机器人策略叫做"视觉-语言-行动模型"（Vision-Language-Action，简称VLA），可以理解为一个既能看图、又能读懂指令、还能控制手臂的综合大脑。你给它看一张厨房的照片，再说"把平底锅里的菠萝拿出来放到右下角"，它就会控制机械臂完成这个任务。

这类系统已经相当厉害，但面对一些复杂场景——比如桌子上摆了十几个东西、目标藏在角落里、或者需要连续完成好几步动作——它就容易出错。于是研究者们想了一个办法：在行动之前让机器人先"想一想"，生成一段推理过程，再据此行动。这个想法本身没问题，问题出在"怎么想"上。

主流做法是让机器人用文字推理，就像人在脑子里默念"好，我要先找到锅，然后确认菠萝的位置，然后判断右下角在哪里……"。这种做法确实能提高准确率，但代价极其高昂。生成文字是一个字一个字往外蹦的过程——术语叫"自回归解码"——速度很慢。ECoT这个代表性的文字推理方案，每走一步需要8.377秒。对于需要实时响应的机器人来说，这个数字就像让一名厨师每切一刀之前都要先写一篇分析报告，根本没法实际操作。

另一条路是给机器人额外加一堆视觉辅助信息，比如深度图、分割图、空间关系图等等，让它"看得更全"。但这条路有另一个麻烦：信息太多同样是负担。把所有视觉通道的信息都塞给行动解码器，就像给一个厨师同时展示食材照片、切割示意图、成品图、营养成分表和食谱历史——大部分信息在当前这一步根本用不上，反而干扰了判断。

浙大团队意识到，真正需要的是一个"恰到好处"的视觉推理接口：不啰嗦，不冗余，只在合适的时候提供恰好需要的那部分视觉信息。

二、六条"视觉线索通道"：给机器人装上选择性注意力

VisualThink-VLA的核心思路，可以用一个摄影师的比喻来理解。一个经验丰富的摄影师拍照时，不会把镜头对准场景里的所有东西——他会根据主题选择性地聚焦：拍人像时注意轮廓和表情，拍运动时捕捉动态，拍风景时考虑层次和距离。机器人推理也应该如此：根据当前任务阶段，只"看"最有用的那部分信息。

为此，研究团队设计了一套六通道的"视觉证据库"。每个通道就像摄影师镜头里的一个滤镜，专门提取场景中的某一类信息。第一个通道叫BBox（边界框），负责告诉机器人"目标在哪里"——它用开放词汇检测工具（Grounding DINO / OWL-ViT）在图像中框出任务相关物体的位置和大致范围。第二个通道叫Edge（边缘），负责捕捉物体的轮廓和形状细节——用SAM2这个图像分割工具提取物体的边界线，帮助机器人在抓取时精确判断接触点。第三个通道叫Motion（运动），负责总结"上一时刻到现在，场景里发生了什么变化"——通过比较前后两帧图像的差异，加上时序掩码传播技术，把最近的动态信息压缩成一个紧凑的向量。第四个通道叫Relation（关系），负责编码与任务指令相关的空间几何关系——比如"锅在平台的右边"或者"碗在盘子里面"，通过Qwen2.5-VL这个视觉语言模型解析指令中的空间关系词，再用确定性渲染生成关系表示。第五个通道叫Depth（深度），提供单目深度估计，给出场景的几何层次信息。第六个通道叫Segment（分割），用检测引导的SAM2掩码标注物体区域和场景划分。

关键的一步发生在这六个通道建立之后：研究团队通过大量实验发现，Depth和Segment这两个通道在实际任务中几乎从不被选中，带来的准确率提升微乎其微，却增加了额外的计算开销和信息干扰风险。于是，这两个通道被从日常工作集里剔除，只保留BBox、Edge、Motion、Relation这四个通道作为标准工作集。这个"通道筛选"步骤本身就很有意思：它说明并非所有看起来有用的信息都真的有用，去掉干扰有时比增加信息更重要。

三、任务自适应编排层：聪明地"按需取用"

有了四个视觉通道，下一个问题是：每一步行动时，该用哪几个？全部都用不是最好的选择，因为有些通道在特定阶段根本不相关——机器人刚开始接近目标时，运动信息几乎为零，没有必要把它塞给决策模块。

研究团队为此设计了一个"任务自适应路由器"，它的工作就像一个经验丰富的调度员。每一步决策时，路由器会根据当前观察图像、上一帧图像和任务指令，预测每个证据通道的"有用程度分数"，然后通过一个硬化操作把软分数转换成0或1的二元选择——用或不用，干净利落。被选中的通道，其视觉信息会被送入下一环节；没被选中的通道，完全不参与计算。这就是系统效率的核心来源：不是所有通道都要跑，只跑当前有用的那几个。

从实验数据来看，路由器平均每步只选2.22个通道。换句话说，机器人在大多数时候只用两个视觉线索就够了，而不是全部四个。这个数字不是人为设定的上限，而是路由器自己学出来的结果，说明系统确实学会了"按需索取"。

四、视觉状态合成器：把选出来的线索"注入"大脑

选好通道之后，这些视觉证据需要以某种形式传递给机器人的行动决策大脑。传统方式是把辅助图像直接拼接到输入里，但那样会增加序列长度、拖慢速度。VisualThink-VLA采用了一种更轻量的方式：通过"视觉状态合成器"（Visual State Composer），把路由选出的通道向量投影成一小组"软状态令牌"（soft state tokens）。

这些软状态令牌可以理解为经过浓缩的视觉摘要——它们不是完整的图像，而是从图像中提炼出的、与任务最相关的视觉特征，以学习到的紧凑表示形式存在。这些令牌会被插入到冻结的VLA主干模型（OpenVLA，一个70亿参数的视觉语言行动模型）的输入序列中，就像在演员上台前给他递一张"提示卡"——不是让他重新排练整出戏，只是点醒他当前场景的关键信息。而VLA主干模型本身的参数完全不动，这意味着VisualThink-VLA可以作为一个即插即用的模块嵌入任何现有VLA系统，而不需要重新训练整个大模型。

五、软硬协作训练与师生蒸馏：让稀疏路由既准又稳

纯粹的"硬路由"（要么全选要么全不选）在训练时很脆弱，因为梯度无法通过离散的0/1选择反向传播。研究团队采用了一种"混合路由掩码"策略来解决这个问题：在训练时，最终使用的掩码是硬掩码和软分数的加权混合，混合比例中软分数占35%。这样训练时的梯度可以流动，模型能够学习；推理时则切换为纯硬掩码，保证高效的稀疏选择。

为了让稀疏路由继承密集证据的性能优势，系统还引入了"师生蒸馏"机制：先训练一个"全软"教师模型（FullSoft），它每次都使用全部四个通道，因此性能最强；再让稀疏路由的学生模型通过"知识蒸馏"向教师学习，目标是在用更少通道的前提下，尽量逼近教师的行动预测分布。这个过程用了动态损失函数，结合了动作预测损失和KL散度蒸馏损失，温度参数设为1.5，蒸馏权重0.2。最终的训练目标还加上了来自VisualEvidence-Set的路由监督损失，三项合一，共同优化。

六、VisualEvidence-Kit：给"视觉思考"建一套审计档案

以上这些机制回答了"怎么做"的问题，但还有一个更深层的问题没有解决：机器人真的在用它声称在用的视觉证据做决策吗？还是它只是在走形式，实际上根本没依赖路由出来的通道？

为了回答这个问题，研究团队构建了一套叫做VisualEvidence-Kit的监督与审计资源，其核心是一个VisualEvidence-Agent（视觉证据代理）。这个代理会处理机器人操作的原始视频帧和轨迹数据，通过四个步骤生成结构化的路由监督数据。

第一步是证据提取：对每个决策时刻，运行全部六个通道的提取器，生成一份"特征清单"。第二步是路由与效用评估：通过反事实分析——比如"如果去掉Motion通道，成功率会下降多少"——为每个通道标注其实际效用，形成通道级别的路由目标和效用排名。第三步是轨迹构建：把操作阶段（接近、抓取、放置等）、动作类型（抓、放、推、关闭……）、证据依赖关系、难度等级和选定通道记录成一份结构化的通道级别轨迹，而不是一段自由文字。第四步是人工审核：实验室学生对生成的记录进行一致性检查和质量过滤，剔除不可靠的标签。

最终形成的VisualEvidence-Set包含754,700条视觉推理VLA指令，覆盖真实世界操作、仿真环境、长时序任务和真实机器人场景四大类，涵盖四个操作阶段、八种动作类型、六种证据通道和五个难度等级。这个数据集分为三个子集：Full-Clean用于宽泛的统计和加权训练；HQ-Trace保留高质量的结构化轨迹用于精细化监督；Gold-Faithfulness是最严格的子集，754,700条高可靠性指令专门用于反事实可信度审计实验。

七、实验结果：数字背后的故事

研究团队在多个公开机器人学习基准上对VisualThink-VLA进行了全面测试，包括BridgeData V2（真实厨房和桌面场景）、Fractal（谷歌的真实机器人操作数据集）、RoboTurk（众包操作数据）、LIBERO系列（四个仿真子集：物体、目标、空间、长时序）以及UT Austin MUTEX（多模态任务规范）。

在所有参与比较的方法中，VisualThink-VLA在八个基准中的七个上取得了最高成功率，整体平均成功率达到92.63%。最能说明问题的对比发生在延迟这个维度：使用文字推理的ECoT在BridgeData V2上每步需要8.377秒，而VisualThink-VLA只需0.367秒——速度提升了22.8倍，与此同时成功率还从85.09%提升到了89.49%。这个结果意味着，视觉推理不仅更快，还更准。

与密集证据的教师模型FullSoft相比，VisualThink-VLA在平均成功率上略高（90.10% vs 89.83%），而平均延迟更低（0.395秒 vs 0.470秒）。这说明稀疏路由并没有损失密集证据的大部分优势，反而因为过滤掉了冗余信息，在某些场景下表现得更好。

在真实机器人实验中，测试平台是一台PIPER NERO 7自由度机械臂，搭载固定外置RGB摄像头，每个任务测试50次。四类任务分别是：多物体拾放（桌上有干扰物，需要定位目标）、关系敏感放置（需要理解"放到杯子左边"这样的指令）、接触敏感重定向（抓住杯子并翻转扶正）和两阶段复合任务（先移动物体到抽屉区域，再开抽屉完成放置）。VisualThink-VLA在四类任务中有三类超过FullSoft，整体平均完成时间25.6秒 vs FullSoft的30.2秒，且平均只选用1.83个通道。

从路由器的阶段性选择模式来看，实验结果非常直观：接近阶段，BBox通道被选中的概率高达76.1%，因为这时候最重要的是找到目标在哪里；抓取阶段，Motion通道跃升至87%，Edge通道达到90.2%，因为这时候需要精确的接触信息和动态反馈；放置阶段，Relation通道占78.9%，因为需要判断目标位置与终点的几何关系。路由器不是随机选择，也不是固定偏好某个通道，而是真实地随任务阶段变化，说明系统学到了真正有意义的推理逻辑。

八、消融实验：哪些组件真的重要？

研究团队还做了一系列"拆零件"实验，来验证每个设计选择的必要性。

在通道重要性测试中，分别去掉四个通道中的某一个，然后看成功率如何变化。在BridgeData V2上，去掉Motion造成最大下降（5.33个百分点），去掉Relation下降5.05个百分点，去掉Edge下降3.55个百分点，去掉BBox下降2.98个百分点。在LIBERO-Long上，去掉Edge造成最大下降（4.77个百分点），去掉Relation下降3.90个百分点。不同任务对不同通道的依赖程度各有侧重，说明四个通道是互补的，没有哪一个可以独当一面。

在训练方案对比中，纯硬路由（直接用0/1掩码）在BridgeData V2上成功率只有82.86%；加上软硬混合后提升到84.19%；再加上教师蒸馏，进一步提升到89.46%。这个递进式的提升清楚地说明了每个训练机制的独立贡献。

在路由与轨迹监督的消融实验中，去掉路由监督会导致路由对齐度从0.929下降到0.758；去掉轨迹监督则使效用提及度从0.984下降到0.738；而如果把结构化的通道级别目标替换成自由文字描述，路由对齐度会暴跌至0.052，效用提及度跌至0.039，整体成功率也下降近5个百分点。这组数据清楚地表明：让机器人推理可信赖，靠的不是让它说一段好听的解释，而是给它提供结构化的、可验证的证据目标。

九、可移植性：不止能用在一个机器人大脑上

VisualThink-VLA并非专门为OpenVLA定制。研究团队在另外两个完全不同的VLA系统上进行了测试：Octo（一个通用机器人策略框架）和SmolVLA（一个轻量级、低成本的机器人视觉语言行动模型）。结果显示，加上VisualThink-VLA之后，OpenVLA的测试集成功率从76.26%提升到92.63%（+16.37个百分点），Octo从49.52%提升到60.39%（+10.87个百分点），SmolVLA从42.73%提升到54.68%（+11.95个百分点）。三个系统都有显著提升，延迟增加都控制在0.1秒以内，验证了这个视觉推理模块的通用性。

归根结底，VisualThink-VLA做的事情可以用一句话概括：它让机器人学会了"看关键点，想关键事，做关键动"——用最少的视觉信息，在最短的时间内，做出最准确的决策。这条路和人类的直觉推理更接近，也更适合实时控制的实际需求。

研究的局限性也很诚实地摆在那里：目前的视觉通道只覆盖了视觉感知，触觉反馈、力传感、声音信号以及更长时序的记忆都还没有纳入进来。测试场景也相对集中在桌面操作任务，更复杂的工作空间、更多样的机器人形态、更长的任务链还需要进一步验证。不过对于一个让机器人从"先写文章再干活"进化到"边看边想边干"的系统框架来说，这已经是一个相当扎实的起点。

对机器人感兴趣的读者可以通过arXiv编号2605.30011找到完整原文和代码仓库，亲手看看这套系统是如何把"视觉思考"落地成工程实现的。

Q&A

Q1：VisualThink-VLA比ECoT快22倍是怎么做到的？

A：ECoT在行动前要生成一段文字推理，文字是一个字一个字依次生成的，速度很慢，每步需要约8秒。VisualThink-VLA改用视觉证据令牌，不生成文字，只提取图像中的关键特征压缩成紧凑向量，直接注入行动决策模块，每步只需约0.37秒，因此实现了22.8倍的加速。

Q2：VisualEvidence-Set的754,700条数据是怎么生成的？

A：通过VisualEvidence-Agent自动处理机器人操作视频，对每个决策时刻运行六个视觉通道的提取器，再做反事实分析评估每个通道的实际效用，生成结构化的路由标签和轨迹记录，最后经过人工审核过滤掉不可靠的标签，最终形成这批数据。

Q3：VisualThink-VLA能用在其他机器人上吗，不只是OpenVLA？

A：可以。研究团队在Octo和SmolVLA两个完全不同的机器人系统上测试过，成功率分别提升了10.87和11.95个百分点，延迟增加控制在0.1秒以内，证明这个视觉推理模块可以作为通用插件用于不同的VLA系统。