【文献分享】Novae：一种基于图结构的空间转录组学数据基础模型-开发者社区

文章目录

- 介绍
- 代码
- 参考

介绍

空间转录组学通过提供有关组织内基因表达的高分辨率信息，推动了分子生物学的发展。这种情境对于识别空间区域至关重要，有助于理解微环境的组织结构及其对组织功能和疾病进展的影响。为了改善当前在多张切片上的模型局限性，我们设计了 Novae，这是一个基于图的基础模型，能够提取细胞在其空间情境中的表示。我们的模型基于近 3000 万个细胞的数据集（涵盖 18 种组织），能够在多个基因面板、组织和技术之间进行零样本域推断。与其他模型不同，它还能够原生地纠正批次效应，并构建空间区域的嵌套层次结构。此外，Novae 支持各种下游任务，包括空间变量基因或通路分析以及空间区域轨迹分析。总体而言，Novae 提供了一种强大的、多功能的工具，用于推进空间转录组学及其在生物医学研究中的应用。

空间转录组学1、2 数据为细胞在其微环境中的相互作用以及组织结构的复杂性提供了宝贵的见解。与当前的单细胞 RNA 测序（scRNA-seq）3 相比，空间转录组学的一个关键优势在于它能够保持细胞的空间位置信息，从而能够更深入地理解细胞在其自然环境中的相互作用方式。空间转录组学的技术大致可分为两类：（1）基于下一代测序（NGS）的方法，可提供全转录组测序；（2）基于成像的技术，如 Xenium5、MERSCOPE6 或 CosMX7，这些技术能提供亚细胞分辨率。前者能够进行全面的基因分析，但缺乏精细的空间细节；而后者则提供了详细的空间分辨率，但基因面板的规模有限。随着成像技术的不断发展，它们的基因面板能力也在不断扩大，能够在研究中纳入更大的面板或替换低质量的基因；然而，这种灵活性往往会导致实验在不同的机器上进行或使用不同的面板，从而带来了新的挑战。在更普遍的情况下，当对多个空间转录组学切片（无论是基于下一代测序技术还是基于成像技术）进行分析时，通常会观察到明显的批次效应，因此在不仔细考虑批次效应的情况下，很难在多个切片之间识别出共有的空间模式。
空间转录组学的一个关键重点在于识别和分类空间微环境，这些微环境通常被称为空间区域或生态位。为此目的，已经开发出了多种方法，如 STAGATE8、GraphST9、SpaceFlow10 和 SEDR11。尽管这些方法显示出良好的效果（尤其是在具有斑点分辨率的 NGS 技术如 Visium 的情况下），但它们受到以下限制：（1）依赖于预先定义的基因面板；（2）对批次效应的敏感性；以及（3）对外部工具（如 Harmony12 用于批次效应校正，Leiden13 或 Mclust14 用于聚类）的依赖。这些依赖关系可能会减慢处理速度并降低稳健性，因为需要为每次新的分析或调整空间区域分辨率（选择不同的空间区域数量）重新运行外部工具。此外，由于它们依赖于特定的基因集，这些方法通常需要在基因集的交集上进行训练，这会显著减少可用的基因数量，从而影响性能。值得注意的是，即便应用于具有共用面板的幻灯片中，这些模型也往往主要识别出的是与单个幻灯片相关的特定领域，这限制了在更广泛的研究中对不同领域进行比较的可能性，并降低了发现新的空间生物标志物的潜力。
为解决这些局限性，我们引入了 Novae，这是一种自监督的 15 节点注意力网络 16 ，它将局部环境编码为空间表示。与现有方法不同的是，同一个 Novae 模型可以与多个基因面板协同工作，从而能够在各种技术和组织中得到应用。它包括原生的批次效应校正方法，直接纠正差异并增强鲁棒性和可扩展性。因此，Novae 的设计使其能够无缝地整合来自不同平台和基因面板的数据，而不会影响性能。我们在一个包含 78 张切片的大型数据集上训练了 Novae，这些切片涵盖了 18 种组织和三种不同的亚细胞分辨率技术（Xenium5、MERSCOPE6 和 CosMX7），近 3000 万个细胞。这种广泛的训练使 Novae 能够通过零样本 17 或在来自不同组织的新切片上进行微调来计算相关表示。这些表示可以直接用于空间域识别，无需使用外部聚类工具。除了空间域识别之外，这些表示形式还可应用于各种后续任务，包括：（1）空间域轨迹分析；（2）空间变量基因（SVG）分析；以及（3）空间通路分析。Novae 的多功能性、稳健性和易用性使其成为科学界推进空间转录组学研究的强大工具。

代码

https://github.com/MICS-Lab/novae

参考

Novae: a graph-based foundation model for spatial transcriptomics data
https://github.com/MICS-Lab/novae

【文献分享】COSIME：具有可扩展性和可解释性模型解释器的协同多视角整合

文章目录介绍代码参考介绍单组学方法往往只能对复杂的生物系统提供有限的视角，而多组学整合则能够通过整合各种数据视角来实现更全面的理解。然而，整合不同类型的异质数据以及解析生物特征（包括同一视角和不同视角之间）之间的复…

李华

Springboot优卖电商系统s7zmj（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。

系统程序文件列表项目功能：用户,商品分类,商品信息开题报告内容一、选题背景与意义 （一）选题背景随着互联网技术的飞速发展和消费者购物习惯的深刻变革，电子商务已成为推动全球经济增长的重要力量。然而，在激烈…

李华

在 SAP 里，“自动过账模板”并不是指“凭证模板”（那属于 FB70/FB50 的手动预制），而是指“系统根据业务事件，自动决定借贷科目、金额、税码、成本要素”的一套后台规则

在 SAP 里，“自动过账模板”并不是指“凭证模板”（那属于 FB70/FB50 的手动预制），而是指“系统根据业务事件，自动决定借贷科目、金额、税码、成本要素”的一套后台规则。对平行分类账场景，我们只要在“自动…

李华

Android应用离线架构深度解析：5大核心模块实现高可用数据同步

Android应用离线架构深度解析：5大核心模块实现高可用数据同步【免费下载链接】PocketHub PocketHub Android App 项目地址: https://gitcode.com/gh_mirrors/po/PocketHub 在移动应用开发中，网络连接的不稳定性已成为影响用户体验的关键瓶颈。用…

李华

【文献分享】Novae：一种基于图结构的空间转录组学数据基础模型

文章目录

介绍

代码

参考

【文献分享】COSIME：具有可扩展性和可解释性模型解释器的协同多视角整合

5分钟快速上手！用js-sequence-diagrams轻松绘制专业序列图

Springboot优卖电商系统s7zmj（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。

精通FreeRTOS与WolfSSL v5.6.4集成：嵌入式安全通信深度实战

在 SAP 里，“自动过账模板”并不是指“凭证模板”（那属于 FB70/FB50 的手动预制），而是指“系统根据业务事件，自动决定借贷科目、金额、税码、成本要素”的一套后台规则

Android应用离线架构深度解析：5大核心模块实现高可用数据同步