摘要
空间多组学数据可在保留细胞空间结构的同时,整合多种分子谱信息,是解析组织分子特征的强大工具。但不同模态间固有的数据质量与噪声水平差异,严重制约了数据的精准整合与分析。本文提出CANDIES框架,结合条件扩散模型与对比学习,实现空间多组学数据的高效去噪与整合。该框架凭借创新的模型与算法设计,既能提升空间多组学数据质量,又可生成统一、全面的联合表征,支撑多种下游生物学分析。研究在模拟数据集与6类真实数据集上开展了充分验证,包括小鼠脑MISAR-seq数据、人体皮肤活检组织空间CITE-seq数据、小鼠胚胎空间Mux-seq与空间ATAC-RNA-seq数据、人体淋巴结10× Visium数据。CANDIES在去噪、空间域识别、时空轨迹重构、复杂人类性状空间关联映射等下游任务中性能优异。此外,CANDIES生成的表征可与全基因组关联研究(GWAS)数据结合,建立空间域与复杂人类性状的关联,为相关组织中复杂性状提供空间解析视角。
mingxcai@cityu.edu.hk
hmcai@scut.edu.cn
#复杂性状 #扩散模型 #多组学整合 #空间转录组学
结果
CANDIES模型概述
图1 CANDIES模型框架
(a) CANDIES去噪阶段:基于空间坐标通过k近邻(KNN)算法构建空间图,对空间图应用图自编码器(GAE)并结合各模态特征,生成各模态低维嵌入以支撑去噪模型训练;采用基于扩散 Transformer(DiT)的条件扩散模型,利用低质量模态与高质量模态嵌入的空间依赖关系,增强低质量模态嵌入;最终将去噪后的低质量模态嵌入解码回原始数据空间。
(b) CANDIES整合阶段:对每个组学模态,基于空间邻近图与特征相似图应用双图卷积网络(GCN),将去噪后的空间多组学数据编码至隐空间;通过对比学习实现跨模态嵌入对齐,再通过注意力机制动态整合空间图与特征图,在保留细胞异质性的同时平衡空间结构与分子特征信息。
(c) CANDIES支持4类下游分析:去噪、空间域识别、伪时空图谱(pSM)构建、复杂性状-空间域关联映射。
CANDIES通过模拟空间多组学数据去噪提升空间域分割效果
图2 CANDIES在模拟空间多组学数