news 2026/4/15 14:46:02

【文献分享】SHICEDO:通过减少过度平滑处理来增强单细胞 Hi-C 数据

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【文献分享】SHICEDO:通过减少过度平滑处理来增强单细胞 Hi-C 数据

文章目录

    • 介绍
    • 代码
    • 参考

介绍

单细胞 Hi-C(scHi-C)技术极大地促进了我们对三维基因组结构的理解。然而,scHi-C 数据往往较为稀疏且存在噪声,这给后续分析带来了巨大的计算难题。
结果
在本研究中,我们推出了 SHICEDO 这一新型深度学习模型,其专门用于通过生成对抗框架来填补缺失或稀疏捕捉到的染色质联系中的空白,从而增强 scHi-C 联系矩阵。SHICEDO 利用 scHi-C 矩阵的独特结构特征来提取定制特征,从而实现有效的数据增强。此外,该模型还采用了通道级注意力机制,以缓解 scHi-C 增强方法中常见的过度平滑问题。通过模拟和实际数据应用,我们证明 SHICEDO 比现有最先进的方法表现更优,取得了更出色的定量和定性结果。此外,SHICEDO 增强了 scHi-C 数据中的关键结构特征,从而能够更精确地描绘染色质结构,如 A/B 区域、TAD 类似域和染色质环。

三维(3D)基因组结构对于关键生物学过程的调控至关重要,例如基因转录、DNA 复制和细胞分裂(米斯利 2020 年)。Hi-C 技术(利伯曼-艾登等人 2009 年、段等人 2010 年、拉奥等人 2014 年、马等人 2015 年)能够对染色质相互作用进行全基因组范围的定位,从而揭示了三维基因组组织的原理。对 Hi-C 相互作用频率矩阵的分析揭示了染色质组织的多个层次,包括活跃和不活跃(A/B)区域(利伯曼-艾登等人 2009 年)、拓扑相关区域(TADs)(迪肯等人 2012 年)以及染色质环(拉奥等人 2014 年)。
近来,单细胞 Hi-C(scHi-C)技术的出现(Nagano 等人,2013 年、2017 年;Ramani 等人,2017 年)进一步推动了该领域的革新,使我们能够以单细胞水平研究三维基因组结构,从而为单个细胞的空间基因组组织的变异性及动态变化提供了宝贵的见解。然而,由于实验限制和高昂的测序成本,scHi-C 数据目前仅限于少数细胞系或组织。此外,现有的 scHi-C 数据集往往存在低测序深度、大量稀疏性、实验偏差和噪声等问题,所有这些都给后续的数据分析带来了巨大的计算挑战。在这些挑战中,低测序深度和稀疏性尤为关键,因为它们极大地阻碍了对 scHi-C 数据的全面分析。
为解决这一难题,已开发出多种计算方法,通常被称为填补或数据增强方法。这些方法旨在推断缺失或稀疏记录的染色质接触信息,并通过计算手段增加有效的测序深度,从而减少稀疏性,提高单细胞高通量染色质构象测序(scHi-C)数据的整体数据质量和可解释性。由于 scHi-C 数据具有固有的稀疏特性,因此这些方法通常不会以传统意义上的方式提高 scHi-C 矩阵的分辨率,即它们不会缩小基因组区间大小或增加接触矩阵的维度。
例如,scHiCluster(周等人,2019 年)使用卷积和随机游走重启(RWR)插补来缓解数据稀疏性,以便在后续聚类操作前进行处理。同样,SnapHiC(于等人,2021 年)使用基于 RWR 的插补来改进环路检测。然而,基于卷积和随机游走的插补策略往往依赖于局部信息,这可能会引入虚假的正向接触,并导致过度平滑,即在插补矩阵中精细结构细节被掩盖的现象。scHiCcompare(阮等人,2025 年)提出了另一种方法:它通过使用距离感知随机森林模型将基因组距离衰减纳入其设计中,对具有相似基因组距离的染色质接触进行分组进行插补。尽管这有助于减少无关接触带来的偏差,但它仍可能因在相似距离之间借用信息而不保留精细结构而导致过度平滑。Zhang等人(2022 年)引入了 Higashi,这是一种基于超图的深度学习方法,旨在解决 scHi-C 数据中的稀疏性问题。通过将 scHi-C 数据概念化为超图,矢西有效地利用了细胞间的全局信息,通过将来自相似细胞的信号进行汇总来增强共有的染色质特征。虽然矢西提高了 scHi-C 数据的质量,但其聚合策略也可能引入过度平滑(如图 S1 所示,可在生物信息学在线网站的补充数据中获取)。过度平滑的 scHi-C 矩阵往往会丢失精细的结构细节,这可能导致对染色质特征的错误识别。此外,过度平滑还可能无意中降低细胞间的变异性。
另外,基于深度学习的方法已被开发出来以增强 Hi-C 数据。这些方法通常采用监督学习框架,在这个框架中,一个降采样的矩阵会被增强以逼近原始高覆盖度的 Hi-C 矩阵。已经开发出了几种卷积神经网络(CNN)和生成对抗网络(GAN)模型来增强大规模 Hi-C 数据,包括 HiCPlus(Zhang 等人,2018 年)、hicGAN(Liu 等人,2019 年)、DeepHiC(Hong 等人,2020 年)和 EnHiC(Hu 和 Ma,2021 年)。虽然最初是为大规模 Hi-C 数据设计的,但这些方法也可以适用于稀疏的 scHi-C 数据。然而,这种适应往往会导致 scHi-C 矩阵过度平滑(见图 S1,可在生物信息学在线网站的补充数据中获取)。最近,ScHiCEDRN(Wang 等人,2023 年)被开发出来,通过将 scHi-C 数据视为单通道图像,并使用受超分辨率成像技术启发的 GAN 框架来增强 scHi-C 数据。虽然这种方法很有前景,但偶尔会产生图像伪影,并且倾向于预测过多的假阳性接触(见图 S1,可在生物信息学在线网站的补充数据中获取)。
传统

代码

https://github.com/wmalab/SHICEDO

参考

  • SHICEDO: single-cell Hi-C data enhancement with reduced over-smoothing
  • https://github.com/wmalab/SHICEDO
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/13 18:26:10

CMSIS-Core在STM32中的配置手把手教程

深入理解CMSIS-Core:STM32开发的底层基石与实战配置指南你有没有遇到过这样的情况?明明代码逻辑没问题,串口却输出乱码;FreeRTOS启动后任务不跑;或者低功耗模式一进去就再也“醒”不过来。这些问题背后,往往…

作者头像 李华
网站建设 2026/4/13 17:35:33

Open-AutoGLM开源了!你不可错过的7个高效微调技巧(内附代码)

第一章:Open-AutoGLM开源了!模型概览与核心价值 Open-AutoGLM 是一个全新开源的自动化通用语言生成模型,旨在为开发者和研究者提供高度可定制、高效且透明的自然语言处理能力。该模型基于先进的混合注意力机制与动态推理路径优化技术构建&am…

作者头像 李华
网站建设 2026/4/8 19:05:24

IRISMAN终极指南:3步解决PS3游戏管理所有痛点

IRISMAN终极指南:3步解决PS3游戏管理所有痛点 【免费下载链接】IRISMAN All-in-one backup manager for PlayStation3. Fork of Iris Manager. 项目地址: https://gitcode.com/gh_mirrors/ir/IRISMAN 还在为PS3游戏管理而烦恼吗?IRISMAN作为PlayS…

作者头像 李华
网站建设 2026/4/8 10:41:31

Dify如何帮助企业积累可复用的AI资产

Dify如何帮助企业积累可复用的AI资产 在企业智能化转型的浪潮中,越来越多公司开始尝试将大语言模型(LLM)融入业务流程。然而现实往往是:一个团队花了几周时间做出的智能客服原型,在另一个部门需要类似功能时&#xff0…

作者头像 李华
网站建设 2026/4/8 7:14:21

安卓手机也能跑AutoGLM?揭秘本地AI模型部署的3大核心技巧

第一章:安卓手机也能跑AutoGLM?初探本地AI的可行性随着大模型技术的普及,越来越多开发者开始探索在移动设备上运行本地化AI推理的可能性。安卓手机凭借其开放的系统架构和不断升级的硬件性能,正逐步成为轻量级AI模型部署的新平台。…

作者头像 李华
网站建设 2026/4/3 3:38:19

基于Dify的AI应用原型设计到产品上线全过程演示

基于Dify的AI应用原型设计到产品上线全过程演示 在企业纷纷拥抱大模型的今天,一个现实问题摆在面前:为什么拥有顶尖模型能力的公司,依然难以快速推出可用的AI产品?答案往往不在于模型本身,而在于从“能说”到“能用”之…

作者头像 李华