【论文学习】GiTNet：一种基于图的轨迹引导网络，用于注视监督的医学图像分割-开发者社区

GiTNet

作者：Shaoxuan Wu 等
卷期日期：2026年7月，DOI 于4月登记
核心：以眼动轨迹作为弱监督信号，用图结构建模视线与病灶区域的关系。

GiTNet: A graph-based trajectory-informed network for gaze-supervised medical image segmentation

GiTNet：一种基于图的轨迹引导网络，用于注视监督的医学图像分割

理解

注视监督：传统方法需要医生手工精确勾画轮廓来训练AI，成本极高。而“注视监督”只用采集医生阅片时的视线轨迹（注视点序列）作为监督信号。医生只需自然地看图像，不用动手画，AI就通过“看”医生在关注哪里，来学习应该分割哪里。这是一种弱监督学习。

基于图的轨迹引导：它把医生视线产生的轨迹点构建成一个图结构（点作为节点，注视的先后转移关系作为边），通过图神经网络来建模和推理轨迹中蕴含的语义关系。这个图网络会引导分割网络去重点关注医生注视过的、信息量丰富的区域，从而完成精确分割。

摘要

为医学图像分割创建全标注标签既耗时又昂贵，这凸显了亟需高效的标注方案来减轻工作负担。眼动追踪提供了一种经济的解决方案，可无缝融入临床医生的工作流程，为分割任务提供相关监督。然而，注视点固有的不准确性和模糊性会为分割提供错误的监督信号，且编码了丰富时序和结构上下文的动态轨迹未得到充分有效的利用，导致嵌入在注视中的语义信息未能被充分利用。这阻碍了注视监督的有效性，并削弱了模型在模糊区域精确勾画器官和病灶边界的能力。为解决这些挑战，我们提出了基于图的轨迹引导网络（GiTNet），该网络融合静态注视点与动态轨迹，全面建模复杂的解剖关系及潜在病灶区域，并通过轨迹关系对齐（TRA）约束图拓扑结构，以增强模型对解剖和病灶相关区域的聚焦能力。此外，我们引入了邻居感知伪监督（NAP），该机制聚合图中相邻节点的语义信息，以降低注视中的噪声和不确定性。同时，图表示一致性（GRC）通过施加扰动并保持节点和边的一致性，增强了模型学习复杂空间结构的能力，并提升了监督效果。实验结果表明，在两个公开数据集上，GiTNet 均优于现有的最先进弱监督方法。我们的代码见 https://github.com/IPMI-NWU/GiTNet。

引言

医学图像分割通过识别医学图像中的相关结构，在疾病早期检测、准确诊断和手术规划中起着至关重要的作用（Qureshi 等，2023）。然而，要达到高精度和稳健的泛化能力，通常需要大量标注数据（Shen 等，2023）。由于医学图像标注需要经验丰富的临床医生的专业知识，这一过程不仅耗时，而且成本高昂，成为医学图像分割技术广泛临床应用的重大障碍（Tajbakhsh 等，2020）。

为降低标注成本，弱监督学习在医学图像分割中日益受到重视。通过利用成本更低且更易获取的弱标注模态，如边界框（Wei 等，2023）、点（Zhai 等，2023）或涂鸦（Wong 等，2025；Zhang 和 Zhuang，2022a），模型可以获得稀疏监督。然而，这些方法往往依赖静态标注，无法捕捉临床医生的认知模式（Zhong 等，2024）。此外，此类标注类型仍需要专业临床医生投入额外时间，干扰临床工作流程，进一步加重医务人员的负担（Wang 等，2022）。

近期研究表明，来自临床专家的注视数据可作为一种独特且高效的弱监督来源。由生物驱动的注视自然反映了临床医生在医学图像中对器官结构和潜在病灶的注意力（Bhattacharya 等，2022）。这一信息不仅揭示了感兴趣区域，还提供了关于临床医生如何整合不同区域的特征以做出诊断决策的洞察（Saab 等，2021）。与传统标注技术相比，注视可通过眼动仪自动记录，既具有成本效益，又易于融入临床工作流程（Zhong 等，2024）。

然而，注视数据也带来若干挑战。尽管它为分割提供了洞察，但有效利用编码时序和结构关系的动态轨迹仍然困难。当前方法通常依赖静态特征（如注视点位置）作为辅助先验，忽视了更具诊断意义的动态注视轨迹（Wang 等，2022；Ma 等，2023；Wang 等，2024）。因此，模型理解解剖区域之间复杂关系的能力受到阻碍，影响了在模糊区域准确识别器官和病灶边界的能力。实际上，注视轨迹反映了临床医生在复杂视觉分析中的图像解读过程，并传递了丰富的上下文和空间结构信息，这对医学图像理解和病灶定位至关重要（Bisogni 等，2024）。

CNN（He 等，2016）和 Transformer（Dosovitskiy 等，2021）等主流架构在建模图像区域间的高阶关系方面存在局限。相比之下，GNN 在表征结构化关系和捕获图像内部空间依赖方面展现出巨大潜力（Han 等，2022）。基于此，我们提出了基于图的轨迹引导网络（GiTNet），它从注视中全面学习临床医生的视觉搜索行为。GiTNet 根据图像区域间的特征相似性动态构建图结构，有效捕获高阶关系。此外，我们引入轨迹关系对齐（TRA）模块，调整图结构的空间拓扑以匹配临床医生的注视路径。这种对齐增强了模型感知复杂解剖结构和潜在病灶的能力。

此外，由于探索性注视和其他人为因素的影响，注视数据本身含有噪声和模糊性。虽然一些方法尝试通过多阈值策略和模型集成来解决这一问题（Zhong 等，2024；Chen 等，2025），但二值化常引入错误标签，削弱了监督信号的可靠性并影响分割性能。为应对这一挑战，我们将图像划分为前景、背景和不确定区域，其中不确定区域包含注视信息模糊的区域。然后，我们提出邻居感知伪监督（NAP）模块，该模块基于图结构中邻近节点的特征推断不确定区域的伪标签。NAP 有效减轻了弱标签错误的影响，并提升了监督的整体质量。此外，我们引入图表示一致性（GRC）模块，强制图结构在扰动下的稳定性，以增强模型对复杂空间结构的理解，并进一步加强监督约束。

本文的主要贡献如下：（1）我们提出用于注视监督医学图像分割的 GiTNet，它在图像区域间构建图结构，并利用动态轨迹约束图的空间拓扑，同时融合静态注视点以捕获注意力分布。（2）在 GiTNet 中，TRA 模块约束图结构的空间拓扑与临床医生的注视轨迹对齐，从而增强模型聚焦于解剖相关结构和病灶区域的能力。（3）NAP 模块基于图中邻近节点的语义关系推断不确定区域的标签。通过结合 GRC 来强制图结构在扰动下的稳定性，我们强化了监督约束并增强了模型理解复杂空间结构的能力。（4）在两个公开数据集上的大量实验表明，GiTNet 优于现有的弱监督医学图像分割方法。

理解

与传统标注技术相比，注视可通过眼动仪自动记录，既具有成本效益，又易于融入临床工作流程（Zhong 等，2024）。

眼动仪：一种记录视线轨迹的设备，自动录下他们看了哪里，这个过程不需要医生做任何额外操作，不影响他们原本的工作，数据就自动采集到了，成本低得多。

方法

本文提出基于图的轨迹引导网络（GiTNet），该网络融合动态注视轨迹与静态注视点，用于弱监督医学图像分割。注视数据反映了临床医生的诊断策略，但这种行为数据难以映射为精确的任务相关监督。此外，注视常伴随噪声和不确定性，这限制了其在医学图像分割中的效用。为应对这些挑战，我们引入了轨迹关系对齐（TRA），通过图结构显式建模注视轨迹，从而增强模型的感知能力。此外，我们将图像划分为前景、背景和不确定区域。邻居感知伪监督（NAP）旨在基于图结构中相邻节点为不确定区域推断伪标签，有效减轻错误影响并提升整体监督质量。我们还引入了图表示一致性（GRC）模块，强制原始图与扰动图之间的结构一致性，从而强化监督约束。下面，我们将详细描述架构及各模块。

GiTNet 架构

包括 CNN 和 Transformer 在内的主流架构已广泛应用于医学图像分析。然而，这类架构在显式捕获图像区域间高阶关系方面仍存在局限（Han 等，2022）。GNN 在表示结构化关系和建模图像内空间依赖关系方面具有明显优势（Wang 等，2024）。通过图表示，可以更有效地表征区域间关系，为嵌入和利用注视轨迹提供了一个自然且灵活的框架。

如图 1 所示，GiTNet 学习临床医生在诊断过程中的注意力分布与轨迹，对图结构中的节点进行分类并识别图像分割模式。GiTNet 架构由 GNN 块和采样层组成。

图一

图1. GiTNet的示意图，展示了用于图构建和消息传递的GNN模块及采样层；该模型由静态注视图以及通过轨迹关系对齐模块校准后的动态轨迹共同监督。

给定输入图像 𝑥 和通过拼图增强得到的扰动图像 𝑥𝑠，我们首先通过 stem 层进行四倍下采样操作。随后将得到的特征图划分为多个块，并通过 GNN 块分别构建对应的图 𝒢 和扰动图 𝒢𝑠。在每个 GNN 块内，根据当前特征表示动态重建图，并应用图卷积操作来聚合和变换节点特征。这些操作能够逐步提取语义信息。特征随后通过采样层、跳跃连接和分割头，生成最终预测 𝑦 和 𝑦𝑠。

在扰动策略中，我们采用了自监督学习中广泛使用的拼图增强技术来增强图像理解（Bucci 等，2022）。通过打乱全局空间布局同时保留纹理，拼图增强加强了模型捕获空间关系和结构细节的能力（Zhang 等，2025）。

为了纳入注视中的静态注视点信息，我们处理原始注视数据，应用 I2MC 算法（Nyström 和 Holmqvist，2010）提取注视点，并使用二维高斯滤波器生成注意力图 𝑔𝑎。通过对 𝑔𝑎 应用背景阈值 𝜏𝑏 和前景阈值 𝜏𝑓，注视图 𝑔 被分割为三个区域：背景（𝑔𝑎 ≤ 𝜏𝑏）、不确定区域（𝜏𝑏 < 𝑔𝑎 < 𝜏𝑓）和前景（𝑔𝑎 ≥ 𝜏𝑓）。不确定区域被视为噪声，排除在监督之外。分割损失定义如下：

其中 ℒ𝑝𝑐𝑒 表示部分交叉熵损失，𝛺coor 指注视图 𝑔 所定义区域内的像素坐标集合。完整性损失 ℒ𝑖𝑛𝑡𝑒𝑔 = 1 − cos(𝑦, 𝑦𝑐) 常用于弱监督学习，可有效减轻噪声干扰。𝑦𝑐 表示通过连通分量分析剔除非最大连通区域后得到的结果。函数 cos(⋅, ⋅) 指余弦相似度，定义为：

在 GiTNet 中，GNN 块将图像显式表示为图，并通过聚合和变换操作学习特征。给定特征图 𝑓 ∈ R𝐻×𝑊 ×𝐶，将其划分为节点集 𝒱𝑓 = {𝑣1, 𝑣2, … , 𝑣𝑁}，其中 𝑁 = 𝐻 ∗ 𝑊，每个节点对应一个图像块。对于每个节点 𝑣 ∈ R𝐶，在特征空间中应用 KNN 来确定邻居节点集 𝒩(𝑣)，然后在节点与其邻居之间构建边 𝑒。采用欧氏距离量化节点对之间的不相似性，选择 𝑘 个最近邻作为邻居，本文中 𝑘 = 9。最终的图表示为由节点集和边集组成的结构：𝒢𝑓 = {𝒱𝑓, ℰ𝑓}。在消息传递和特征学习过程中，节点表示通过如下聚合与变换操作进行更新：

其中 𝐹 𝐶(⋅) 表示全连接层，𝐺𝐶(⋅) 表示最大相对图卷积（Li 等，2019）（见图 2）。

图二

图2. 基于邻域感知的伪监督模块利用不确定节点图结构中相邻节点的信息，推断伪标签以实现增强型监督。图表示一致性通过强化原始图与扰动图之间的一致性约束，提升了模型对复杂空间关系的理解能力。

轨迹关系对齐

现有方法通常依赖静态信息，如注视点位置和持续时间，但忽略了动态注视轨迹中蕴含的时空结构信息，从而限制了模型感知复杂解剖结构和潜在病灶的能力。相比之下，轨迹捕捉了临床医生在诊断过程中的视觉搜索路径，并提供丰富的空间上下文和结构引导。

我们提出 TRA 模块，在轨迹层面引入空间拓扑约束。具体而言，对于具有 𝑁 个节点的图结构，节点间的结构关系由距离矩阵 𝒟 定义，其中

𝑣𝑖 ∈ R𝐶 表示第 𝑖 个节点及其特征表示。

轨迹序列表示为 𝒯 = {𝑡1, 𝑡2, … , 𝑡𝑀}，其中 𝑡𝑚 ∈ 𝒱 表示第 𝑚 个注视点，对应于图结构中的一个节点。序列 𝒯 反映了区域间的时间跳跃关系。基于 𝒯，我们定义轨迹连接矩阵 𝒜 ∈ R𝑁×𝑁 来捕捉沿注意力路径的结构关系：

其中 𝒜 表示节点间的直接视觉转移。为引导图结构 𝒢 更好地对齐临床医生的视觉路径，我们设计轨迹关联对齐损失如下：

其中 ⊗ 表示逐点相乘，𝑂 ∈ R𝑁×𝑁 为零矩阵，ℒBCE 表示二元交叉熵损失，计算如下：

TRA 设计鼓励轨迹与模型的图结构对齐，从而增强模型对解剖相关区域和病灶相关区域的联合感知能力。

邻居感知伪监督

模糊的注视数据导致错误的监督，对模型性能产生不利影响。为解决这一挑战，NAP 利用不确定区域内相邻节点的信息来推断伪标签，从而改善注视数据模糊区域的监督质量，如图 2 所示。对于由网络中的 GNN 块构建、分别对应输入图像 𝑥 和扰动图像 𝑥𝑠 的图 𝒢 和 𝒢𝑠，节点根据其在注视图 𝑔 中的位置分为两类：(1) 确定节点 𝒱𝑐（包含前景和背景），以及 (2) 不确定节点 𝒱𝑢。然后，NAP 应用稳定性门将不确定节点集 𝒱𝑢 划分为稳定节点 𝒱𝑠，定义如下：

其中 𝑣𝑢 表示 𝒢 中的不确定节点，^𝑣𝑢 表示 𝒢𝑠 中同一位置的对应不确定节点。

阈值 𝜏𝑠 定义为所有稳定节点间的平均余弦相似度。为估计该值，首先在不使用 NAP 模块的情况下进行实验获得一个模型。然后收集所有训练样本中稳定节点的余弦相似度值并计算其均值，得到 𝜏𝑠 = 0.968。相应公式如下：

其中 𝑣𝑐 表示 𝒢 中的确定节点，^𝑣𝑐 为 𝒢𝑠 中对应的节点。对于每个稳定节点 𝑣𝑠，其伪标签基于相邻节点 𝒩(𝑣𝑠) 估计如下：

其中 𝑙𝑎𝑏𝑒𝑙(⋅) 表示节点的类别，前景节点取值为 1，背景节点取值为 −1，不确定节点取值为 0。指示函数 I(⋅) 若条件成立则返回 1，否则返回 −1。为所有稳定节点估计标签后，生成伪标签 𝑦𝑃 𝐿。NAP 损失函数定义为：

其中 𝑦′ 和 𝑦′𝑠 分别表示通过伪监督头获得的 𝒢 和 𝒢𝑠 中各节点的预测值。

图表示一致性

为进一步加强监督并提升对复杂空间结构的学习性能，引入了 GRC。该模块通过对原始图与扰动图之间的节点特征和边结构施加双重一致性约束来增强结构感知。扰动图由拼图增强图像通过 stem 和若干 GNN 块构建而成。理想情况下，它应具有与原始图相同的节点特征和边结构。

具体而言，采用余弦相似度度量原始图和扰动图中对应节点特征表示之间的相似性，确保节点特征表示的一致性。节点一致性损失定义如下：

其中 𝑣𝑖 和 ̂𝑣𝑖 分别表示原始图 𝒢 和扰动图 𝒢𝑠 中的对应节点。ℒ𝑛𝑜𝑑𝑒 促使扰动图中节点特征的方向与原始图保持一致，从而提高模型的稳定性。

此外，为了保持图结构的整体空间拓扑，进一步约束节点间的边结构。基于节点特征计算原始图和扰动图的结构距离矩阵如下：

通过矩阵差的 Frobenius 范数度量图之间的结构差异，边结构一致性损失定义为：

其中 ℒ𝑒𝑑𝑔𝑒 促使原始图和扰动图之间的拓扑结构保持稳定，这有助于模型更有效地捕获图像内部的复杂空间依赖关系。

特征一致性正则化的总损失表示为：

在上采样阶段，每个 GNN 模块之后，对图结构应用 TRA、NAP 和 GRC 策略。GiTNet 的最终优化目标定义为：

实验

数据集与实验细节

遵循 Zhong 等人 (2024) 的实验设置，GiTNet 在 KvasirSEG (Jha 等人，2020) 和 NCI-ISBI (Bloch 等人，2013) 数据集上进行评估。KvasirSEG 数据集用于胃肠道图像中的息肉分割，包含 900 张训练图像和 100 张测试图像。NCI-ISBI 数据集用于 T2 加权 MRI 图像的前列腺分割，包含 789 张训练图像和 117 张测试图像。注视标注来自 Zhong 等人 (2024)。如图 3 所示，第一列为原始图像，第二列为真实标签，第三列展示了对注视数据应用高斯滤波后生成的注意力图，第四列描绘了临床医生的轨迹。蓝线表示注视路径，箭头指示方向；圆点标记注视点，其中红点和蓝点分别代表起点和终点。评估采用标准指标，包括 Dice 系数和标注时间 (AT)。

图三

图3展示了两个数据集的可视化结果：第一行呈现Kvasir-SEG数据集中的示例，第二行则展示NCI- ISBI 数据集中的示例。

注视标注的流程来自 Zhong 等人 (2024)。每位标注者在实验前进行九点校准。标注过程中，工作流程包含两步：(1) 标注者先进行初步粗扫，然后对感兴趣的目标进行详细检查；(2) 完成标注后，标注者按键进入下一张图像。注视数据使用 SR Research EyeLink 1000 Plus 眼动仪以单眼模式记录。系统采样率为 1000 Hz，平均注视误差不超过 0.5° 视角。参与者与显示屏保持 46–55 cm 的观看距离，并使用下巴托固定头部位置。

所有实验均在配备 PyTorch 的 NVIDIA 3080Ti GPU (12 GB) 上进行。训练采用 Adam 优化器，共训练 100 个 epoch，学习率为 1×10⁻⁴，批量大小为 4。𝜏𝑓 和 𝜏𝑏 分别设为 0.3 和 0.6。经统计分析，公式 (9) 中的 𝜏𝑠 = 0.968。公式 (17) 中的超参数 𝜆𝑇、𝜆𝑁 和 𝜆𝐺 均设为 0.5。每次实验结果以三次独立试验的均值 ± 标准差进行评估。

与最先进方法的比较

定量结果

如表 1 所示，我们在 NCI-ISBI 和 KvasirSEG 数据集上，针对五种不同的弱监督类型进行了定量比较，包括：全标注（黑色三角 ▴）、边界框标注（橙色梅花 ♣）、点标注（绿色菱形 ⧫）、涂鸦标注（蓝色黑桃 ♠）和注视标注（红色方块 ■）。在全监督设置下，比较的方法包括 U-Net (Ronneberger 等人，2015)、TransUNet (Chen 等人，2021)、nnU-Net (Isensee 等人，2021)，以及我们方法在全监督下的两个变体：GiTNet𝐹 和 GiTNet𝐹。前者表示将我们的网络直接适配到全监督设置中，后者则从 GiTNet𝐹 中移除了 TRA 模块，因此 GiTNet𝐹的训练仅依赖真实掩膜，不包含临床医生的动态轨迹。对于边界框监督，比较了使用伪标签的 BoxInst (Tian 等人，2021) 和 BoxTeacher (Cheng 等人，2023)。在点监督场景下，比较了 PointSup (Cheng 等人，2022) 和 AGMM (Wu 等人，2023)，后者是一种可推广用于点和涂鸦标注的方法。对于涂鸦监督，比较包括采用一致性学习的 CycleMix (Zhang 和 Zhuang，2022a)、ShapePU (Zhang 和 Zhuang，2022b)，以及使用伪标签的 ScribFormer (Li 等人，2024)。在注视监督中，将通用方法如 U-Net、TransUNet 和 nnU-Net，与注视监督方法如 GazeMedSeg (Zhong 等人，2024) 和 Chen 等人 (2025) 的方法进行了比较。所有结果均以均值 ± 标准差展示。

如表 1 所示，所提出的 GiTNet 方法在注视监督场景下表现出卓越的性能，在 NCI-ISBI 和 KvasirSEG 数据集上分别取得了 80.99% 和 80.97% 的平均 Dice 分数，超越了现有的最先进方法。与 U-Net、TransUNet、nnU-Net 和 GazeMedSeg 相比，GiTNet 在 Dice 分数上均有统计学显著提升，经 Wilcoxon 检验（𝑝 < 0.05）确认。与 Chen 等人 (2025) 的方法相比，GiTNet 在 NCI-ISBI 数据集上取得了统计学显著的性能优势。值得注意的是，Chen 等人 (2025) 的方法依赖额外的大规模视觉-语言模型和基于 RoBERTa 的文本编码器，这些组件显著增加了计算和存储开销，并影响了与注视监督方法比较的公平性。

与最佳的边界框监督方法 BoxTeacher 相比，GiTNet 分别高出 5.39% 和 7.64%。在涂鸦监督场景下，GiTNet 相较于 ScribFormer 提升了 6.68% 和 5.10%。注视监督在医学图像分割中展现出巨大潜力。与全监督方法相比，GiTNet 性能与 U-Net 相近，但落后于 nnU-Net，不过其标注速度比全监督快近九倍。此外，当 GiTNet 迁移到全监督时，其性能比 nnUNet 高出 1.11% 和 3.93%。移除注视信息后，GiTNet𝐹* 仍超越 nnU-Net，凸显了 GiTNet 在捕获复杂结构信息和增强分割能力方面带来的改进。

在全监督设置下，该方法在两个数据集上表现出不同的性能，NCI-ISBI 上的 Dice 低于 KvasirSEG。这一差异可归因于成像特性和任务复杂度的不同。NCI-ISBI 数据集涉及基于 MRI 的前列腺分割，其低对比度和模糊边界使得结构难以捕获；而 KvasirSEG 由内窥镜图像组成，息肉相对于周围组织呈现较高对比度。然而，在弱监督设置下，该方法在两个数据集上取得了更一致的性能。弱监督对精细空间对比度和精确边界信息的依赖较小，使模型能够在不同成像特征的数据集上表现更稳定。

表一

五种标注类型中不同方法的比较结果。注视监督与完全监督下的最优方法以粗体标示，次优方法则以下划线标示。AT表示对应每种标注类型的标注时间。

定性可视化

图 4 展示了我们的方法与多种最先进方法在 NCI-ISBI 数据集上的定性比较。图中红色区域表示过分割，绿色区域表示欠分割。对于前列腺器官分割，GiTNet 在边界完整性和结构一致性方面展现出卓越的稳定性和准确性。如第一行所示，传统方法（如 nnU-Net、TransUNet）边界模糊，而基于涂鸦的方法由于监督稀疏，出现了严重的过分割（ScribFormer）或欠分割（CycleMix, ShapePU），导致前列腺器官识别不完整。此外，GiTNet 在小目标上也保持稳定性能。第二行中，其他方法表现出不同程度的错误，包括缺失组织区域（欠分割）或错误扩张（过分割）。这些结果表明，GiTNet 有效利用轨迹信息来提升网络对器官结构和形状细节的理解，从而减少分割偏差。此外，由于注视数据固有的噪声，传统方法（如 nnU-Net、TransUNet、U-Net）易出现性能不稳定，导致分割结果不完整。相比之下，GiTNet 引入不确定性引导的标签策略，有效区分噪声区域，并利用基于邻居的推理生成高质量伪标签，为网络提供更可靠的监督信号。

图四

图4. GiTNet与其它前沿方法在NCI- ISBI 数据集上的定性比较。过度分割区域以红色标示，欠分割区域以绿色标示。

图 5 展示了我们的方法与几种先进方法在 KvasirSEG 数据集上的定性比较结果。该数据集因息肉与周围组织在纹理和颜色上的高度相似性而极具挑战。在第一行示例中，尽管所有方法都有一定程度的分割错误，但 GiTNet 的欠分割问题明显更少，整体性能最优。传统方法如 nnU-Net 和 TransUNet 倾向于遗漏某些病变区域。在第四行展示的小尺寸病变场景中，GiTNet 成功检测到小息肉。反之，像 ScribFormer 这样的弱监督方法由于弱标签空间信息稀疏且不稳定，存在严重的过分割问题，将背景区域误分类为病灶。另外，基于注视热图的 GazeMedSeg 方法也表现出明显的过分割问题，尤其是在小目标场景下，这表明仅依赖静态注视点不足以提供有效的结构约束。nnU-Net 等传统方法同样未能充分保持目标结构，限制了其实际诊断支持能力。相比之下，GiTNet 通过基于不确定性的区域划分策略，有效减轻了注视数据中的噪声干扰，从而增强了分割结果的稳定性。

图五

图5. GiTNet与其它前沿方法在KvasirSEG数据集上的定性比较。过度分割区域以红色标示，欠分割区域以绿色标示。

消融研究

不同组件的贡献

表 2 展示了 GiTNet 各模块在 NCI-ISBI 和 KvasirSEG 数据集上的性能贡献。在仅使用注视监督 ℒ𝑠𝑒𝑔 的基线设置下，模型在两个数据集上分别取得了 78.14% 和 77.78% 的 Dice 分数。引入 ℒ𝑖𝑛𝑡𝑒𝑔 带来了性能提升。当加入 TRA 模块时，Dice 分数提升至 79.26% 和 78.85%，验证了 TRA 通过有效整合临床医生的视觉信息，增强了模型感知复杂空间结构的能力。进一步引入 GRC 增强了图结构的稳定性并细化了局部细节表示，使 Dice 分数达到 80.28% 和 79.88%。最后，NAP 通过为不确定区域推断伪标签来强化监督信号，在两个数据集上分别达到了 80.99% 和 80.97% 的最优性能。这些结果体现了所有模块协同作用所带来的整体性能提升。此外，在保持其他损失函数不变、仅移除 ℒ𝑖𝑛𝑡𝑒𝑔 的情况下，模型在两个数据集上的性能均下降，这证实了 ℒ𝑖𝑛𝑡𝑒𝑔 的有效性及其在提升模型稳定性方面的作用。

表二

TRA 模块的有效性

TRA 模块通过整合从临床医生收集的动态轨迹来细化图的空间拓扑。沿轨迹顺序访问的节点被鼓励在特征空间中形成更一致的表示，从而增强模型准确聚焦于解剖和病变相关区域的能力。注视包含注视点和眼跳，眼跳主要对应注视点间的快速转移，在预处理阶段被移除。如图 3 所示，预处理抑制了探索性视觉搜索行为，产生集中于目标区域的轨迹，为注视监督和引入 TRA 模块提供了可靠基础。TRA 并非强制执行来自注视的刚性约束，而是通过在特征空间中施加相对关系约束来引入软监督。这种设计降低了对个体扫描习惯和运动偏差的敏感性。

为深入探究 TRA 的潜在机制，我们使用随机轨迹以及包含 20% 和 50% 轨迹的子集进行了实验，结果见表 3。当轨迹被削弱或随机化时，观察到性能下降，这表明性能提升来源于轨迹中嵌入的有意义的视觉注意线索。尽管人类注视固有噪声，但 TRA 作用于多层次下采样特征，每个节点对应原图中的一片区域而非单个像素，部分缓解了注视位移噪声的影响。此外，静态弱监督通常源自离散注视点，使用交叉熵损失优化，对小目标提供的约束有限。相比之下，TRA 将监督更均匀地分布在图节点上，增强了对小目标和局部结构细节的敏感性。

表三

不确定性与 NAP 的有效性

为验证不确定性区域划分策略的有效性，在 U-Net 和 TransUNet 上进行了实验，如表 4 所示。模型 U-Net_uncertain 和 TransUNet_uncertain 采用了基于注视图的不确定性区域划分策略，将注意力图划分为前景、背景和不确定区域，并仅对可靠区域施加监督。相比之下，传统 U-Net 和 TransUNet 模型直接将图二值化为前景和背景，并对整个区域施加监督。实验结果表明，引入不确定性区域划分后，TransUNet_uncertain 在 NCI-ISBI 和 KvasirSEG 数据集上的 Dice 分数分别提升了 1.18% 和 0.93%。这表明不确定性划分策略有效减少了注视噪声的影响，增强了模型识别结构细节的能力。

表四

表 5 分析了不同伪标签策略的性能。Pred 通过设定阈值基于预测图生成伪标签。NAP (w/o Gate) 是不带稳定性门的版本，直接估计所有不确定区域。相比之下，所提出的 NAP 策略综合考虑了稳定性进行伪标签选择，取得了最佳性能。此外，NAP (Second-order) 利用二阶邻居为不确定区域生成伪标签，其性能与标准 NAP 相当，但计算复杂度更高，效率较低。图 6 可视化了 NAP 生成的伪标签结果。与传统二值掩膜相比，NAP 生成的伪标签与真实标签更一致，显著提升了不确定区域的监督质量。

表五

图 6 展示了来自两个数据集的三个代表性示例。第一列为带有真实标签的原始图像。第二列展示了对注视应用高斯滤波生成的注意力图，其中边界区域显得模糊不清。第三列可视化了不确定性区域划分策略产生的注视图，灰色区域代表被识别并从交叉熵监督中排除的不确定区域。第四列展示了 NAP 模块为不确定区域估计的伪标签，红色和绿色分别高亮过分割和欠分割。第五列为使用传统二值化方案获得的注视监督，其中包含大量错误区域。结果表明，不确定性区域划分策略有效抑制了噪声监督。此外，与传统二值掩膜相比，NAP 模块生成的伪标签与真实标注更加一致，大幅提升了监督质量，减少了注视噪声的影响。

图六

图6展示了GiTNet利用邻域信息为不确定区域生成的伪标签可视化结果，并对比了基于不确定性划分策略构建的眼动图与传统二值化方法所得结果。左侧前五列数据来自KvasirSEG数据集，右侧后五列数据则来自NCI- ISBI 数据集。

GRC 模块的有效性

表 6 展示了 GRC 模块的消融研究。GRC 模块通过对节点特征和边结构施加一致性约束，促使原始图与扰动图之间保持结构一致性。节点一致性约束确保对应节点具有相似的表示，边一致性则保留图结构的拓扑一致性。实验结果表明，单独引入节点或边一致性时性能提升有限。当两者结合时，达到了最佳分割效果。

表六

增强策略的消融

表 7 比较了常见数据增强策略对分割性能的影响，包括亮度-对比度调整、随机噪声、旋转、翻转和拼图增强。结果表明，亮度-对比度变化和随机噪声带来的性能提升有限，可能是因为这些方法引入了外观层面的颜色扰动，并未改变空间结构。旋转和翻转的效果也不及拼图，因为这些几何变换产生的扰动较小，无法模拟复杂的结构变化。相反，拼图增强有助于网络聚焦局部结构 (Zhang 等人，2025)，增强其学习复杂形态特征的能力，从而提升分割性能。

表七

骨干网络的消融

通过消融研究探讨了 GiTNet 中骨干网络架构的影响，定量结果总结于表 8。评估了多个代表性骨干网络，包括 ResNet18 (He 等人，2016)、ResNet50 (He 等人，2016)、Vision Transformer (ViT) (Dosovitskiy 等人，2021) 和 Vision GNN (ViG) (Han 等人，2022)。实验结果表明，ViG 在 NCI-ISBI 和 Kvasir-SEG 数据集上均取得了最佳 Dice 分数，显著优于基于 CNN 和 Transformer 的替代方案。进一步分析发现，CNN 受限于局部感受野，捕获长程空间依赖的能力有限。尽管 ViT 具备全局建模能力，但在小规模数据集上往往表现不佳。相比之下，ViG 利用图显式建模特征节点间的关系，并通过消息传递机制捕获非局部空间依赖。

表八

超参数的消融

为评估超参数对模型性能的影响，原始训练集被重新划分为训练子集和验证子集。对于 KvasirSEG，分配 720 张图像用于训练，180 张图像用于验证。对于 NCI-ISBI，使用 631 张图像训练，158 张图像验证。所有后续超参数消融实验均基于这些数据集划分进行。

图构建的消融。图结构的构建取决于两个关键因素：邻居节点数量 𝑘 和用于度量节点间相似性的距离度量。表 9 总结了图构建的消融研究。具体而言，我们评估了不同距离度量及不同 𝑘 值的效果，包括欧氏距离和余弦距离。同时，𝑘 取值设定为 {3, 6, 9, 12}。结果表明，较小的 𝑘 限制了节点间的信息传播，而过大的 𝑘 可能导致图卷积中的过平滑，降低判别能力。当 𝑘 = 9 时模型达到最佳性能，且在不同 𝑘 值下整体性能保持稳定。在不同 𝑘 值下，将欧氏距离替换为余弦距离会导致性能大幅下降，整体结果劣于欧氏距离。这一结果可能归因于原始 ViG 使用欧氏距离构建图，并在预训练中采用相同度量 (Han 等人，2022)。此外，在高维特征空间中，向量趋向于近似正交，使得余弦相似度值集中，限制了其判别能力。

表九

𝜏𝑓 和 𝜏𝑏 的消融。表 10 展示了前景和背景阈值对分割性能的影响。具体地，前景阈值 𝜏𝑓 设为 {0.2, 0.3, 0.4}，背景阈值 𝜏𝑏 设为 {0.5, 0.6, 0.7}。测试在 NCI-ISBI 和 KvasirSEG 数据集上进行。结果显示，当 𝜏𝑓 = 0.3 和 𝜏𝑏 = 0.6 时网络性能最佳，这是平衡前景-背景区分并最小化伪标签噪声的有效设置。

表十

𝜏𝑠 的消融。表 11 评估了稳定性阈值 𝜏𝑠 的影响，该阈值决定了 NAP 模块中选择稳定节点的严格程度，并影响稳定节点的伪标签分配。考察了三种配置：𝜏𝑠 = 0.800、𝜏𝑠 = 0.990 和统计估计值 𝜏𝑠 = 0.968。实验结果表明，过低或过高的阈值都会导致性能下降，而统计得出的阈值取得了最佳性能。

表十一

𝜆 的消融。为探究损失函数公式 (17) 中权重对分割性能的影响，进行了消融研究，结果报告于表 12。权重 𝜆𝑇、𝜆𝑁 和 𝜆𝐺 分别控制 TRA、NAP 和 GRC 模块的贡献。每个权重从 {1, 0.5, 0.3, 0.1} 中选取。结果表明，当所有权重均设为 0.5 时，GiTNet 在两个数据集上均达到最优性能。此外，GiTNet 在不同参数设置下性能保持一致，突显了其卓越的稳定性。

表十二

与 Gemini 的比较

我们与多模态大语言模型 Gemini (Team 等人，2023) 进行了比较。具体而言，使用 Gemini 的图像理解接口对 NCI-ISBI 和 KvasirSEG 数据集进行分割。我们分别使用 Gemini-2.5-flash 版本和 Gemini-3-flash 版本进行了对比。实验结果总结于表 13，表明尽管 Gemini 在通用视觉理解方面展现出强大能力，但其在医学图像分割上的性能仍然有限。

表十三

从技术角度看，Gemini 主要基于自然图像进行训练，因此缺乏对医学成像中常见特性（如低对比度和模糊边界）的有效建模。因此，如图 7 所示，定位性能不稳定。更重要的是，本文针对的是基于注视的弱监督范式下的医学图像分割，目标是在保持性能的同时，大幅降低标注负担并简化临床医生的标注流程。尽管非专家标注者针对某些任务可能掌握基本的标注技能，但大规模且持续的人工标注在真实临床工作流程中仍然成本高昂且不切实际。此外，Gemini 通常需要可观的计算和部署资源，使其更适合作为通用或辅助工具。

图七

图7. 与Gemini在KvasirSEG数据集上的对比结果。过度分割区域以红色标示，分割不足区域以绿色标示。

图结构可视化

图 8 可视化了临床医生的轨迹以及 GiTNet 构建的图邻接关系。第一列和第二列分别显示原始图像和对应的息肉真实标签。第三列为局部放大区域，蓝线表示轨迹，箭头指示方向；圆点代表注视点，红点和蓝点分别指示轨迹的起点和终点。第四列展示了在 GiTNet 构建的图结构上追踪的路径。具体来说，我们首先将临床医生的起始点映射到通过 GNN 模块构建的图中的对应节点，作为路径的初始节点。然后，从该节点开始，我们在特征空间中迭代追踪最近的相邻节点，形成第四列所示的路径。可以观察到，构建路径上的节点与临床医生关注的区域在空间上重叠，表明 TRA 模块有效利用轨迹来调整图结构。通过引导沿轨迹顺序访问的节点在特征空间中学习更一致的表示，TRA 增强了模型聚焦于解剖相关结构和病灶区域的能力，从而提高了识别准确性。

图八

图8. 在KvasirSEG数据集上，GiTNet图结构中轨迹信息的可视化展示。第三列显示人类临床医生的注视轨迹，第四列则根据GiTNet图结构中的邻接关系呈现逐步追踪的路径。

讨论与结论

本文提出了 GiTNet，一种注视监督的医学图像分割方法，该方法全面学习临床医生诊断过程中的静态注视点和动态注视轨迹，以实现医学图像分割中的注视监督。通过构建动态图结构，该方法捕获了图像内区域间复杂的高阶关系。此外，轨迹关系对齐（TRA）模块约束图的空间拓扑与轨迹对齐，从而提升了模型聚焦于解剖结构和病变相关区域的精度。为应对注视中的噪声挑战，邻居感知伪监督（NAP）通过结合相邻节点的语义特征，增强了不确定区域标签推断的可靠性，减少了噪声标签对模型性能的影响。此外，图表示一致性（GRC）策略提升了模型学习复杂空间结构的能力。在两个公开数据集上的大量实验表明，GiTNet 优于最先进的弱监督医学图像分割方法。

未来的工作将探索基于注视的弱监督在三维医学影像中的应用，以更好地满足临床多模态诊断的需求。此外，由于临床医生在经验、习惯和认知偏差等方面的个体差异，模型对注视行为个体差异的鲁棒性尚未得到充分探索。扩展 GiTNet 对这些个体差异的适应性将是未来研究的重要方向。另外，另一个关键的发展方向是引入人机协同机制，在推理过程中实时获取临床医生的视觉输入，使系统能够动态调整其诊断策略，从而在复杂场景中提升准确性和可靠性。

GiTNet：一种基于图的轨迹引导网络，用于注视监督的医学图像分割

理解

摘要

引言

理解

相关工作

弱监督医学图像分割

注视引导的医学图像分析

方法