SPARC Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs-开发者社区

SPARC: Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs

Authors:Niccolo Avogaro, Nayanika Debnath, Li Mi, Thomas Frick, Junling Wang, Zexue He, Hang Hua, Konrad Schindler, Mattia Rigotti

Deep-Dive Summary:
这篇文章介绍了SPARC (Separating Perception And Reasoning Circuits，感知与推理电路分离)，这是一种用于视觉语言模型（VLMs）推理时缩放（test-time scaling）的模块化框架。该框架通过显式地将视觉感知与逻辑推理分离，克服了现有“带图像思考”（thinking with images）范式中感知错误容易级联到推理过程、上下文组织混乱以及计算开销大的问题。

以下是该论文相关部分的详细摘要：

1. 引言 (Introduction)

多模态视觉语言模型（VLMs）通过结合视觉骨干网络和大型语言模型（LLM），在视觉推理方面取得了显著进展。尽管 LLM 中的思维链（CoT）推理可以提升性能，但在多模态场景下，将纯文本推理与图像内容交织（即“带图像思考”）存在核心问题：

复杂性与脆弱性：模型必须学会管理多轮对话和工具调用，将视觉和推理 token 混合在上下文窗口中，这对小模型尤为困难。
计算效率低：现有的单体式（monolithic）方法缺乏根据任务难度动态调整计算量的机制。

SPARC 受神经科学启发（视觉系统中的“what”和“where”路径与负责高级推理的“前额叶皮层”的分离），提出了一种两阶段流水线：首先进行显式视觉搜索以定位关键区域，然后基于这些区域进行推理。

图 1：SPARC 框架概览。推理过程被解耦为：第 1 阶段（感知），通过“What”和“Where”电路执行隐式相关性检测（IRD）；第 2 阶段（推理），“前额叶电路”综合高分辨率裁剪图进行推理并输出答案。

4. 两阶段架构：解耦感知与推理

SPARC 将过程分为：

隐式相关性检测 (IRD)：模型作为感知电路，根据查询定位显著图像区域。这不同于标准的指代对象理解（REC），因为它需要从高级推理提示中推断视觉相关性。
感知推理：模型作为推理电路，结合原始图像和提取出的高分辨率裁剪图生成最终答案。

4.1 实验结果

研究涵盖了 Qwen3-VL（基于边界框）和 Molmo2（基于点检测）两个模型系列，并在V ∗ V^{*}V∗、HRBench 等域内（ID）任务以及 XLRS 遥感等域外（OOD）任务上进行了评估。

表 1：SPARC 在域内（ID）和域外（OOD）的平均表现。

方法	ID 平均 (256/512/Full)	OOD 平均 (256/512/Full)
Qwen3VL 4B
原生性能	41.7 / 48.8 / 72.6	46.2 / 48.4 / 53.5
“带图像思考”	36.8 / 52.2 / 73.1	43.1 / 48.3 / 48.3
SPARC (本文)	51.0 / 60.6 / 74.8	48.7 / 52.9 / 54.8

4.2 发现

免训练提升：SPARC 在无需额外训练的情况下显著优于原生模型和“带图像思考”范式。
效率飞跃：在处理巨大的遥感图像（如8500 × 8500 8500 \times 85008500×8500像素）时，SPARC 仅需约0.1 % 0.1\%0.1%的视觉 token 即可达到甚至超过全分辨率下的准确率。

图 3：帕累托前沿分析。SPARC 在感知要求高的场景下，能以显著更少的 token 实现更优的定位和推理。

5. 通过感知一致性进行缩放 (Scaling via Perceptual Consistency)

解耦架构允许非对称地分配推理预算。作者提出只对“感知分支”应用自一致性（Self-Consistency）：

方法：在 IRD 阶段进行N NN次独立推理（使用高温度系数以增加多样性），然后使用**加权框融合（WBF）**算法合并这些提议。
优势：由于感知模块输出的是简单的坐标 token，生成多个候选方案的计算成本极低。最终只需将融合后的高质量上下文送入昂贵的推理骨干网络运行一次，从而避免了多次运行完整推理链的巨大开销。
以下是该学术论文相关部分的中文摘要：

5.2. 研究发现

表 2 中的结果表明，强制边界框生成的连贯性是增强测试时性能的一种稳健策略。在所有评估的模型中，随着初始 rollout 数量 (N NN) 从 1 增加到 8，准确率呈现单调递增。这证实了对多个感知假设进行随机聚合可以有效地减少定位步骤中的噪声，从而为下游推理任务提供更可靠的视觉上下文。

表 2. 使用加权框融合 (WBF) 在N = 4 N = 4N=4和N = 8 N = 8N=8rollout 时的性能提升和平均裁剪数量。该方法通过在文本空间中细化裁剪提议，实现了有效的测试时缩放，大幅减少了在 SPARC 最终推理阶段处理的图像标记量。

Method	Average			Crops Number
Method	256	512	Full	256	512	Full
Qwen3VL 4B
SPARC	51.0	60.6	74.8	1.59	1.63	1.64
SPARC WBF 4	54.2	65.4	81.7	2.38	2.05	1.72
SPARC WBF 8	55.7	67.0	82.0	3.30	2.54	1.88
Qwen3VL 8B
SPARC	45.4	54.8	79.5	1.23	1.31	1.46
SPARC WBF 4	48.9	63.4	80.9	1.96	1.77	1.66
SPARC WBF 8	49.9	64.1	81.1	2.54	2.19	1.82
Molmo2 4B
SPARC	48.7	57.0	62.9	1.96	1.62	1.72
SPARC WBF 4	48.7	57.8	63.3	3.53	2.76	2.73
SPARC WBF 8	52.6	58.3	64.1	5.57	4.09	4.03
Molmo2 8B
SPARC	47.4	55.0	59.1	1.55	1.63	1.54
SPARC WBF 4	47.9	54.9	58.2	2.57	2.22	2.14
SPARC WBF 8	48.0	55.9	58.3	3.76	3.15	2.92

我们的加权框融合 (WBF) 方法的一个关键优势是，它在提高准确性的同时，不会导致下游计算成本的线性增加。虽然我们在相关性检测阶段启动了 8 个独立的 rollout，但去重机制确保了转发给推理模块的最终裁剪数量保持在较低水平。这种非对称缩放使我们能够在低廉的感知空间中获得广泛探索的好处，同时在昂贵的推理阶段保持精简的上下文。

分析输入分辨率与裁剪数量之间的关系时可以发现一个有趣的趋势：随着输入图像尺寸的增大（从 256 到全分辨率），平均最终裁剪数量持续减少。我们假设在更高分辨率下，模型解决隐式相关性检测 (IRD) 任务的能力有所提高，从而在N NN个 rollout 中产生更高的置信度和共识。

6. 针对纯感知的微调

除了测试时缩放，还可以通过将计算负担转移到训练阶段来增强性能。通过显式训练 VLM 更稳健地执行 IRD，可以直接提高下游 VQA 任务的准确性。

SPARC 的解耦架构提供了一个解决方案：因为感知和推理发生在不同的步骤，我们可以独立地优化它们。我们通过专门为检测阶段训练一个低秩自适应 (LoRA) 模块来实现这一点。在测试时，该适配器仅在感知搜索期间动态激活，从而在不损害推理主干完整性的情况下提高定位精度。与需要复杂强化学习框架的“图像思维”范式不同，我们的方法依赖于轻量级 LoRA 的标准监督微调。

6.1. 实验设置

训练显式感知模块需要带有空间相关性注释的 VQA 数据集。我们对 DeepEyes 数据集执行了一轮合成数据生成，根据目标架构的接地方式定制注释格式：

边界框注释 (Qwen3-VL)：利用 Qwen3-VL-235B-A22 模型提取中间工具调用期间生成的裁剪坐标，并应用拒绝采样——仅保留产生正确最终答案的轨迹。
基于点的注释 (Molmo2)：使用 Molmo2-8B 变体执行两步推理流水线来生成相关点。遵循相同的过滤协议，保留成功的轨迹。

我们使用标准的自回归下一标记预测目标进行两个 epoch 的监督微调 (SFT)。我们在三个不同的分辨率尺度上进行训练。我们假设仅在原生分辨率下训练可能会使优化任务过于简单，导致缺乏足够的难度而产生过拟合。

6.2. 研究发现

如表 3 所示，微调显式感知模块在所有评估维度上都带来了系统性的性能提升。唯一的例外是 Molmo2-4B，这归因于教师模型 (Molmo2-8B) 相对较弱带来的蒸馏瓶颈。

分辨率消融实验揭示了一个反直觉但有利的结果：在降低的图像分辨率下训练不仅计算成本更低，而且比全分辨率训练更有效。这验证了我们的假设，即高分辨率任务容易过拟合。通过人为降低输入分辨率，我们增加了任务难度，迫使模型依赖结构和语义上下文，而不是完美的记忆。

7. 结论

在这项工作中，我们介绍了 SPARC，这是一个受生物学启发、将 VLM 推理分为感知和推理电路的框架。这种分离通过利用前缀 KV 缓存和上下文工程原理减少了计算开销，解锁了稳健且高效的推理。此外，它还实现了解耦的缩放和优化：可以根据任务需求非对称地分配计算资源。这种模块化简化了训练，允许使用有限的低分辨率合成数据对感知进行高效、有针对性的改进。

影响声明

本论文展示的工作旨在推动机器学习领域的发展。我们的工作有许多潜在的社会后果，但我们认为此处无需特别强调。

Original Abstract:Despite recent successes, test-time scaling - i.e., dynamically expanding the token budget during inference as needed - remains brittle for vision-language models (VLMs): unstructured chains-of-thought about images entangle perception and reasoning, leading to long, disorganized contexts where small perceptual mistakes may cascade into completely wrong answers. Moreover, expensive reinforcement learning with hand-crafted rewards is required to achieve good performance. Here, we introduce SPARC (Separating Perception And Reasoning Circuits), a modular framework that explicitly decouples visual perception from reasoning. Inspired by sequential sensory-to-cognitive processing in the brain, SPARC implements a two-stage pipeline where the model first performs explicit visual search to localize question-relevant regions, then conditions its reasoning on those regions to produce the final answer. This separation enables independent test-time scaling with asymmetric compute allocation (e.g., prioritizing perceptual processing under distribution shift), supports selective optimization (e.g., improving the perceptual stage alone when it is the bottleneck for end-to-end performance), and accommodates compressed contexts by running global search at lower image resolutions and allocating high-resolution processing only to selected regions, thereby reducing total visual tokens count and compute. Across challenging visual reasoning benchmarks, SPARC outperforms monolithic baselines and strong visual-grounding approaches. For instance, SPARC improves the accuracy of Qwen3VL-4B on theV ∗ V^*V∗VQA benchmark by 6.7 percentage points, and it surpasses “thinking with images” by 4.6 points on a challenging OOD task despite requiring a 200× \times×lower token budget.

PDF Link:2602.06566v1