news 2026/1/8 19:21:37

【文献分享】利用 CONCORD 技术揭示单细胞数据集中的统一细胞状态图谱

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【文献分享】利用 CONCORD 技术揭示单细胞数据集中的统一细胞状态图谱

文章目录

    • 介绍
    • 代码
    • 参考

介绍

利用 CONCORD 在单细胞数据集中揭示一致的细胞状态图谱 从单细胞数据中揭示潜在的细胞状态图谱需要克服批处理整合、去噪和降维等关键障碍。在此,我们提出了 CONCORD,这是一个统一的框架,能够在单个自监督模型中同时解决这些挑战。其核心是实施一种概率抽样策略,通过数据集感知抽样来纠正批处理效应,并通过硬负样本抽样来提高生物学分辨率。仅使用一个具有单个隐藏层的极简神经网络和对比学习,CONCORD 超越了最先进的性能,而不依赖于深度架构、辅助损失或外部监督。它无缝地整合了不同批次、技术甚至物种的数据,以生成高分辨率的细胞图谱。所得的潜在表示经过去噪处理,并具有生物学意义,能够捕捉基因共表达程序,揭示详细的细胞谱系轨迹,并保留局部几何关系和全局拓扑结构。我们展示了 CONCORD 在各种数据集上的广泛应用性,证明其具备作为通用框架的潜力,能够学习细胞身份和动态的统一且高保真的表示形式。

细胞会表达数千个基因,以执行特定功能并维持体内平衡。基因表达与复杂的基因调控网络以及细胞间的相互作用密切相关,这些因素共同作用,使细胞在高维基因表达空间中被限制在结构化、低维的“状态图谱”中1,2。单细胞技术的进步,尤其是单细胞 RNA 测序(scRNA-seq),使得能够对这一图谱进行实证描绘。新的证据表明,这些图谱可能包含多种特征——包括离散的簇、连续的轨迹、分支的树状结构和循环的转变——反映了细胞状态的潜在组织方式3,4。然而,这些特征的存在和排列通常事先未知,这凸显了需要能够稳健地捕捉其拓扑结构和几何形状的计算方法,以阐明发育、稳态和疾病进展的原理。
降维是一种表示学习的形式,常用于揭示细胞状态图谱的结构。通过将高维数据投影到低维空间,关键的结构模式变得更加易于可视化和分析。然而,诸如主成分分析(PCA)、非负矩阵分解(NMF)5 和因子分析6 等传统方法往往过分强调广泛的细胞类型差异,而忽略了细微的状态,还会将分化过程与细胞周期进程混淆。这些挑战因批次效应而加剧,批次效应是未被充分理解的技术变异来源,会掩盖或扭曲真实的生物信号。尽管已经开发出了一系列批次校正工具,如 Harmony7、Scanorama8、Seurat9、单细胞变分推理(scVI)10、基因组实验关系的关联推断(LIGER)11 和互近邻(MNN)12 等,但它们往往对技术变异的结构做出强假设,从而导致因过度校正或不足校正批次效应而产生的扭曲。此外,当应用于大规模的图谱级数据集时,许多方法都会出现扩展性问题。
在新兴的表示学习方法中,对比学习最近在单细胞分析领域展现出了良好的应用前景14、15、16、17、18、19、20。这些方法最初是为图像和自然语言处理等领域而开发的21、22、23,它们通过将相似的(“正例”)细胞与不同的(“负例”)细胞在小批量(训练过程中迭代采样的细胞子集)中进行比较来学习具有信息量的细胞表示。通过将每个细胞与其他细胞区分开来,模型学习到能够区分不同细胞状态的特征。同时,对同一细胞的增强版本(通常通过随机掩码生成)进行对齐,有助于模型捕捉稳健的基因共表达模式,而非依赖于单个基因的表达24。因此,所学习的表示具有内在的鲁棒性,能够抵御技术噪声和丢弃(单细胞数据集中常见的伪影25)等现象,从而改善诸如聚类和细胞类型分类等下游任务15、16、17。
然而,当前的对比方法存在根本性的局限性:有监督的方法需要大量的人工标注,并且难以推广到新的状态或连续的轨迹上(19, 20);而无监督的方法通常通过均匀采样来形成小批次(14, 15, 16, 17),这导致了两个主要的缺陷。首先,均匀采样强调的是广泛的差异(例如,主要的细胞类型),而对罕见的子群体或细微的差别则代表性不足,从而导致细粒度细胞状态的分辨率不佳。其次,在同一个小批次中混合来自不同数据集的细胞会放大数据集特有的技术差异——即所谓的“批次效应”——导致模型无意中编码这些伪影,而不是捕捉到具有生物学意义的变异。虽然涉及生成对抗网络17, 26, 27、通过反向传播进行的无监督域适应28 和条件变分自编码器(VAE)29 的策略试图减轻批次效应,但它们旨在最小化数据集特有的差异这一目标与对比学习旨在最大化不同细胞之间的差异这一目标相冲突。这常常会导致批次效应校正不完全,并可能对潜在空间造成扭曲。这一困境引发了这样一个问题:对比学习能否在最大程度上捕捉细胞的多样性,同时又能将批次效应降至最低。
在此,我们通过将对比学习的一个局限性(即其对小批量数据组合的敏感性)转化为一种优势,来解决这一开放性问题。我们的核心见解是,小批量数据的组合从根本上决定了对比学习的结果。我们引入了 CONCORD 这一框架,它重新定义了对比学习的过程。

代码

https://github.com/Gartner-Lab/Concord

参考

  • Revealing a coherent cell-state landscape across single-cell datasets with CONCORD
  • https://github.com/Gartner-Lab/Concord
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/8 19:19:32

学术研究加速器:预配置Jupyter+Z-Image-Turbo镜像使用指南

学术研究加速器:预配置JupyterZ-Image-Turbo镜像使用指南 作为一名经常需要切换服务器进行图像生成模型对比实验的研究生,你是否也厌倦了每次都要重新配置环境的繁琐过程?本文将详细介绍如何利用学术研究加速器:预配置JupyterZ-I…

作者头像 李华
网站建设 2026/1/8 19:16:41

阿里通义Z-Image-Turbo商业授权解析:快速搭建合规使用环境

阿里通义Z-Image-Turbo商业授权解析:快速搭建合规使用环境 在企业级AI应用场景中,合规使用商业授权模型是技术落地的首要前提。阿里通义Z-Image-Turbo作为一款高性能图像生成模型,其61.5亿参数架构在多项评测中表现优异,尤其擅长处…

作者头像 李华
网站建设 2026/1/8 19:15:43

Z-Image-Turbo教育应用实战:快速搭建课堂教学环境

Z-Image-Turbo教育应用实战:快速搭建课堂教学环境 作为一名AI课程教师,你是否遇到过这样的困境:想让学生体验最新的图像生成技术,但学生电脑配置参差不齐,有的甚至无法运行基础模型?Z-Image-Turbo作为一款高…

作者头像 李华
网站建设 2026/1/8 19:15:36

AI辅助设计:Z-Image-Turbo与传统设计工具的无缝衔接

AI辅助设计:Z-Image-Turbo与传统设计工具的无缝衔接 作为一名平面设计师,你是否经常需要在Photoshop等传统设计工具和AI生成模型之间来回切换?Z-Image-Turbo镜像正是为解决这一痛点而生,它能让你在保持原有工作流的同时&#xff0…

作者头像 李华
网站建设 2026/1/8 19:15:25

AI绘画与区块链结合:基于预配置环境的Z-Image-Turbo NFT生成方案

AI绘画与区块链结合:基于预配置环境的Z-Image-Turbo NFT生成方案 如果你正在寻找一种快速将AI绘画与区块链技术结合的方法,那么Z-Image-Turbo NFT生成方案可能正是你需要的解决方案。这个预配置环境已经集成了AI图像生成和区块链交互功能,让数…

作者头像 李华