news 2026/3/21 21:38:20

Nature communication | 分割医学图像中的任何东西

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Nature communication | 分割医学图像中的任何东西

医学图像分割是临床实践中不可或缺的重要环节,它能够助力精准诊断、治疗规划以及疾病监测。然而,现有的方法往往针对特定的成像模态或疾病类型进行定制,缺乏在多样化医学图像分割任务中的普适性。MedSAM的出现,正是为了解决这一问题。这是一款基础模型,旨在实现通用的医学图像分割,从而填补现有技术的空白。该模型基于一个大规模的医学图像数据集开发,包含1,570,263对图像与掩膜,覆盖了10种成像模态和30多种癌症类型。在86项内部验证任务和60项外部验证任务的全面评估中,MedSAM展现出比针对特定模态的专业模型更高的准确性和鲁棒性。它能够在广泛的任务中提供准确且高效的分割结果,这对于加速诊断工具的发展以及治疗方案的个性化进程具有重要意义。

MedSAM:快速医学图像分割的基础模型

MedSAM旨在成为一种通用医学图像分割的基础模型。构建此类模型的关键在于能够适应各种成像条件、解剖结构和病理条件的广泛变化。为了应对这一挑战,研究团队整理了一个多样化且大规模的医学图像分割数据集,包含1,570,263对医学图像,涵盖10种成像方式、30多种癌症类型以及多种成像协议如图1所示。这一大规模数据集使MedSAM能够学习医学图像的丰富表征,捕捉不同成像方式下的广泛解剖结构和病变。

图1MedSAM是在一个大规模数据集上进行训练的,能够处理多样化的分割任务

图2a展示了数据集中不同医学成像方式的图像分布情况,按其总数排序。显而易见,计算机断层扫描(CT)、磁共振成像(MRI)和内窥镜是主导的成像方式,反映了它们在临床实践中的普遍性。然而,由于分割任务和成像方式的变异性,全自动分割模型难以实现。因此,MedSAM采用了一种更灵活的可提示二维分割模型架构,结合图像编码器、提示编码器和掩膜解码器,通过用户提供的提示如点或边界框图2b)来适应不同临床场景的需求,并能够处理二维和三维图像。这种设计不仅提高了模型的灵活性和适应性,还为医学图像分割提供了一个高效且通用的解决方案,有望在多样化的临床应用中发挥重要作用。

图2 数据集中模态分布概览及网络架构

定量与定性分析

研究团队通过内部验证和外部验证评估了MedSAM,并将其与SOTA分割基础模型SAM以及针对特定模态的专家模型U-Net和DeepLabV3+进行了比较。每个专家模型针对特定模态的图像进行训练,每种方法均生成了10个专家模型。在推理过程中,专家模型用于分割对应模态的图像,而SAM和MedSAM则用于分割所有模态的图像。内部验证包含86个分割任务,结果显示SAM在大多数任务中的性能最低,尽管在某些RGB图像分割任务(如内镜图像中的息肉分割)中表现良好。相比之下,MedSAM、U-Net和DeepLabV3+的性能明显优于SAM,且MedSAM在不同任务中的DSC分数分布更窄,显示出更高的稳健性。进一步分析显示,MedSAM在大多数任务中排名第一,而SAM则几乎总是排名最后。此外,MedSAM在各种成像条件下能够精确分割广泛的靶点,包括CT图像中的肝脏肿瘤、MR图像中的脑肿瘤、超声图像中的乳腺肿瘤和内镜图像中的息肉,其效果与专业的U-Net和DeepLabV3+模型相当甚至更好。

图3a展示了86个内部验证任务的绩效分布以dice相似性系数(DSC)的中位数表示。框内的中心线表示中位数,框的下边界和上边界分别表示第25百分位数和第75百分位数。图3b将86个内部验证任务的对应表现可视化的平台图。上半部分:每个彩色点表示在一个任务上用相应的方法获得的DSC的中位数。下半部分:柱状图表示每种方法达到的排名的频率MedSAM在大多数任务中排名第一。图3c展示内部验证集上的可视化分割示例。这四个例子分别是肝癌、脑癌、乳腺癌以及计算机断层扫描(CT)、(磁共振成像)MRI、超声和内镜图像中的息肉。蓝色:边框提示;黄色:分割结果。

图3定量和定性评价结果上的内部验证集

图4展示的是外部验证,包含60个分割任务,这些任务来自新的数据集,或者是未见过的分割目标。结果显示,尽管SAM在CT和MR分割任务中表现不佳,但专家模型(如U-Net和DeepLabV3+)对未见过的目标的泛化能力也有限。相比之下,MedSAM在所有任务中均表现出色,例如在鼻咽癌分割任务中,MedSAM的中位DSC评分比SAM、专家U-Net和DeepLabV3+分别高出52.3%、15.5%和22.7%。此外,MedSAM在一些未见过的成像模式(如腹部T1 Inphase和Outphase)中也表现更好,比SAM和专家模型提高了多达10%。定性评估的分割示例表明,MedSAM在处理边界难以区分的复杂目标(如MR图像中的宫颈癌)时表现更优。此外,MedSAM在多发性骨髓瘤浆细胞数据集上也展现出优异的泛化能力,尽管该任务在训练中从未见过,但其表现仍优于SAM。

图4外部验证集的定量和定性评价结果

训练数据集大小的影响&MedSAM提高标注效率

该团队研究了不同数据集大小对MedSAM性能的影响,发现训练数据集的大小是模型性能的关键因素。在10,000(10K)和100,000(100K)图像的数据集上训练MedSAM后,其性能随着训练图像数量的增加而显著提升,无论是在内部验证集还是外部验证集上都表现出更好的效果。

此外,通过一项人工注释研究评估了两种标注管道的时间成本。第一种管道是两名专家手动逐片标注3D肾上腺肿瘤;第二种管道是专家先在每隔3到10片切片上绘制肿瘤的长轴和短轴(初始标记),然后利用MedSAM基于这些稀疏注释完成肿瘤分割,最后由专家手动调整分割结果直至满意。结果显示,在MedSAM辅助下,两位专家的标注时间分别减少了82.37%和82.95%,表明MedSAM能够显著提高标注效率。

图5 训练数据集大小和用户研究对肿瘤标注效率的影响。a将训练图像的大小扩大到一百万,可以显著提高模型在内部和外部验证集上的性能。b MedSAM可以大大降低标注时间成本。源数据作为源数据文件提供

结论

本文介绍了MedSAM,这是一个基于深度学习的医学图像分割基础模型,旨在处理多种医学成像模式下的解剖结构和病变分割任务。MedSAM在包含超过100万对医学图像掩模的大型数据集上进行训练,其可提示配置在自动化和定制之间取得了平衡,使其成为通用医学图像分割的有力工具。通过内部和外部验证的全面评估,MedSAM展现出强大的分割能力,能够处理多种目标,并在新数据和任务上表现出良好的泛化能力。其性能不仅显著优于现有的先进分割基础模型,还能媲美甚至超过专业模型。

MedSAM能够精确勾画解剖结构和病理区域,有助于计算作为生物标志物的各种定量指标。例如,在肿瘤学领域,它可以加速3D肿瘤注释,从而计算肿瘤体积,这是评估疾病进展和治疗反应的关键指标。此外,MedSAM为自然图像基础模型在新领域的应用提供了范例,可进一步扩展到生物图像分割,如细胞分割和细胞器分割。

尽管MedSAM功能强大,但也存在一些局限性。例如,训练集的模式不平衡,CT、MRI和内窥镜图像占主导地位,可能影响其在代表性较低的模式(如乳腺X光)中的表现。此外,在分割类似血管分支的结构时,边界框提示可能会导致模糊,例如在眼底图像中,动脉和静脉可能共享同一个边界框。然而,这些限制并未降低MedSAM的实用性,因为它可以从大规模训练集中学习丰富的医学图像特征,并通过微调适应较少代表的模态或复杂结构。

综上所述,本研究表明构建一个能够处理大量分割任务的单一基础模型是可行的,从而减少了对特定任务模型的需求。MedSAM作为医学图像分割领域的首个基础模型,具有加速新型诊断和治疗工具发展的巨大潜力,并最终有助于改善患者护理。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/15 10:16:49

【torch.compile】Inductor 为什么单输入单输出还是不能融合呢

以resnet50 的网络结构为例,解析为什么有些算子不能融合为什么 op1 和 op2 不能融合? 快速答案 op1 BatchNorm ReLU op2 MaxPool2D 它们不能融合的核心原因是:MaxPool2D 的复杂访问模式与 BatchNorm 的顺序写入不兼容。详细分析 op1 的特征…

作者头像 李华
网站建设 2026/3/15 8:54:28

从0到1:用大模型开发智能客服系统实战

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个基于大模型的智能客服系统,要求能够处理多轮对话,理解用户意图,对接企业知识库,并支持自动生成工单。系统需要具备情绪识别、…

作者头像 李华
网站建设 2026/3/14 9:10:32

Kotaemon代码块高亮显示:开发者友好型输出

Kotaemon代码块高亮显示:开发者友好型输出 在构建智能对话系统的过程中,一个常被忽视但至关重要的问题浮出水面:当大模型生成了代码,开发者如何快速理解、验证并投入使用? 设想这样一个场景:你的企业客服机…

作者头像 李华
网站建设 2026/3/16 19:49:11

HIDDriver虚拟鼠标键盘驱动:从零开始的完整搭建教程

HIDDriver虚拟鼠标键盘驱动:从零开始的完整搭建教程 【免费下载链接】HIDDriver 虚拟鼠标键盘驱动程序,使用驱动程序执行鼠标键盘操作。 项目地址: https://gitcode.com/gh_mirrors/hi/HIDDriver 还在为自动化测试中的输入模拟而烦恼吗&#xff1…

作者头像 李华
网站建设 2026/3/16 18:13:49

企业级Java项目中的类加载问题实战解决

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个Java类加载问题重现和诊断平台,能够:1. 模拟不同环境下的类加载场景 2. 生成典型错误案例(如jar包缺失、主类名错误等)3. 提…

作者头像 李华
网站建设 2026/3/17 2:03:46

AI助力JMeter测试:自动生成性能测试脚本

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 使用AI生成一个JMeter性能测试脚本,测试目标是一个电商网站的登录接口。要求包括:1. 模拟100个并发用户;2. 持续运行5分钟;3. 记录响…

作者头像 李华