点击蓝字 关注我们
MicrobTiSDA:一个用于从微生物组时间序列数据中推断物种交互作用和丰度动态的灵活R包
iMetaOmics主页:http://www.imeta.science/imetaomics/
研究论文
● 期刊:iMetaOmics
●英文题目: MicrobTiSDA: a flexible R package for inferring interspecies interactions and abundance dynamics in microbiome time-series data
●中文题目: MicrobTiSDA:一个用于从微生物组时间序列数据中推断物种交互作用和丰度动态的灵活R包
● 原文链接: https://onlinelibrary.wiley.com/doi/10.1002/imo2.70067
● DOI: https://doi.org/10.1002/imo2.70067
● 2025年11月27日,阿姆斯特丹大学李时佳、Meike T. Wortel等在iMetaOmics在线发表了题为“MicrobTiSDA: a flexible R package for inferring interspecies interactions and abundance dynamics in microbiome time-series data”的文章。
●此研究开发了一个名为MicrobTiSDA的R包,可用于从微生物组时间序列数据中推断物种间的相互作用,并解析微生物丰度随时间变化的动态模式。该工具提供了从数据预处理到结果可视化的完整分析流程,为微生物组时间序列数据分析提供了一体化、流程化的解决方案。MicrobTiSDA可通过GitHub (https://github.com/Lishijiagg/MicrobTiSDA) 公开获取。
● 第一作者:李时佳
● 通讯作者:Meike T. Wortel(m.t.wortel@uva.nl)、Johan A. Westerhuis (j.a.westerhuis@uva.nl)
● 合作作者:Remco Kort、 Tim G.J. de Meij、 Stanley Brul
● 主要单位:阿姆斯特丹大学、阿姆斯特丹自由大学、阿姆斯特丹大学医学中心
亮 点
● 为微生物组时间序列数据分析提供了从数据预处理到结果可视化的一站式解决方案;
● 基于Lotka-Volterra模型从微生物组时间序列数据中推断物种间的相互作用关系;
● 采用自然样条回归模型拟合时间序列数据集中的物种丰度动态;
● 整合机器学习算法用于鉴定微生物biomarkers的丰度时间模式。
视频解读
Bilibili:https://www.bilibili.com/video/BV13t26BJECb/
Youtube:https://youtu.be/k69ftuD3uII
中文翻译、PPT、中/英文视频解读等扩展资料下载
请访问期刊官网:http://www.imeta.science/imetaomics/
全文解读
引 言
纵向微生物组分析对于理解宿主相关或环境微生物群的时间动态具有重要意义。这种分析方法为探索在变化条件下物种间的相互作用的生态模式与机制奠定了基础。通过在特定过程中对于多个时间点采样的微生物群,研究人员能够识别微生物群落的变化趋势、稳定性、相互作用以及外部干预(如抗生素暴露等)的响应。
随着研究需求的不断增长,开发高效且准确的微生物时间序列分析方法已变得愈发迫切。为此,作者开发了一个名为MicrobTiSDA的R包,用于微生物组时间序列数据的分析。该工具整合了基于离散时间Lotka-Volterra模型的“LIMITS”算法,并支持构建自然样条回归模型以分析微生物特征丰度随时间的变化。
MicrobTiSDA被成功应用于三类不同的微生物组时间序列数据集:(1)体外培养的水生微生物群数据集;(2)健康足月婴儿出生后一年内的肠道群菌的时间序列数据集;(3)与早产儿败血症相关的肠道菌群时间序列数据集。在这些应用中,MicrobTiSDA有效揭示了个体内部物种相互作用拓扑结构以及不同来源微生物群落中物种丰度的动态变化模式。该工具丰富了纵向微生物组数据分析的计算方法,为推动微生物组研究提供了有力支持。
结 果
MicrobTiSDA工作流程
MicrobTiSDA集成了七个核心功能模块:数据输入模块、数据预处理模块、物种间互作推断模块、物种丰度的时间回归建模模块、时间模式聚类模块、机器学习分类模块以及结果可视化模块。用户首先需输入标准化的物种丰度表(样本为行,微生物特征为列),并提供相应的样本元数据和分类学注释信息。数据预处理模块支持基于总丰度和在样本中出现频率的筛选、缺失时间点的插值以构建连续时间序列,以及经过改进的中心对数比(MCLR)转换。为刻画微生物群落的生态动态,MicrobTiSDA继承了基于离散时间Lotka-Volterra模型的“Learning Interactions from MIcrobial Time Series”(LIMITS)算法,用于推断物种间的交互作用系数。同时,MicrobTiSDA采用自然样条回归模型刻画物种丰度随时间变化的轨迹。基于回归模型预测结果,用户可以按照时间模式的相似性对微生物特征进行聚类,并通过内置的可视化功能展示结果。此外,对于具有分组实验设计的研究,MicrobTiSDA还提供随机森林分类模块,用于识别在不同实验条件下具有显著区分能力的微生物特征。
自然样条回归模型性能评估
利用自然样条回归(natural spline regression)对微生物特征丰度进行建模是MicrobTiSDA的核心功能之一。为系统评估其性能,我们设计了基于10折交叉验证的基准测试分析。分析采用一个体外培养水生微生物组数据集,选取了其中以蛋白胨培养基培养的八个独立重复样本。对于每个重复样本,我们在连续110天的观测数据上构建回归模型,以捕捉所有微生物特征的时间动态,确保了时间序列的连续性与完整性。我们随后将MicrobTiSDA的自然样条回归方法与三种常见的时间序列建模方法进行了比较:逐步多项式回归(maSigPro包)、样条回归(MetaDprof包)以及局部加权回归(MetaLonDA包)。模型性能通过预测值与观测值的比较进行评估,采用的指标包括:均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)、决定系数(R2)以及偏差(Bias)。随后采用非参数检验方法评估不同方法间的性能差异是否具有统计学显著性。
结果显示,MicrobTiSDA在大多数指标上均表现出相当或更优的性能(见图1)。尤其在MAE指标上,出第二个重复样本(Rep.2)外,自然样条回归模型在大部分重复样本中均显著优于maSigPro的逐步多项式回归,显示出其在预测精度与稳健性方面的优势。虽然在其余四个指标上整体差异不显著,但在第一个(Rep.1)和第六个(Rep.6)重复样本中,MicrobTiSDA的RMSE显著低于maSigPro,进一步表明其在特定条件下具有更优的误差控制能力。
综上所述,MicrobTiSDA中自然样条回归模型在微生物时间序列丰度建模中表现稳健,尤其在降低平均绝对误差方面优于传统的多项式回归方法。这些结果验证了MicrobTiSDA在刻画微生物特征丰度时间动态方面的有效性和可靠性。
图1. MicrobTiSDA构建自然样条回归模型的性能评估结果
基于八个水生微生物群落重复样本中所有微生物特征的模型性能箱线图比较,采用均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)、决定系数(R²)及偏差进行评估。MicrobTiSDA与MetaDprof、maSigPro及LOWESS进行对比。Rep.1至Rep.8代表八个独立重复样本。性能差异的统计显著性采用Wilcoxon秩和检验评估(*:p< 0.05;**:p< 0.01;***:p< 0.005;****:p< 0.001)。
物种间交互作用推断性能评估
MicrobTiSDA的另一项核心功能是基于微生物时间序列数据推断物种间相互作用。为了评估该功能,我们基于离散时间Lotka-Volterra(dLV)模型构建了一个包含已知物种相互作用关系的模拟微生物组时间序列数据集。测试结果显示,MicrobTiSDA在识别物种间是否存在相互作用方面具有较强的判别能力(受试者工作特征曲线下面积AUC的平均值为0.742;图2A)。此外,推断得到的相互作用系数在数值上与真实值接近(平均MAE=0.249,平均MSE=0.152;图2B)。然而,在预测相互作用方向(符号)方面整体表现有限(平均符号准确率SignAcc = 0.427;图2B),即平均仅有42.7%的相互作用方向被正确推断。进一步分析表明,当相互作用系数矩阵较为稀疏(dens = 0.01)时,相互作用符号准确率显著提高(SignAcc > 0.6;表S1);相反,随着物种数量增加,推断性能下降。综合来看,MicrobTiSDA能可靠地推断微生物间的相互作用关系,特别是在物种丰富度较低的群落中表现更为稳定。
此外,为进一步评估MicrobTiSDA在dLV框架下推断物种相互作用的稳健性,我们进行了参数敏感性分析。具体而言,我们在不同参数设置下(丰度中心化方法:均值与中位数;MSE阈值范围:10-1至10-6)分别推断物种间相互作用网络,并计算所得到相互作用矩阵之间的Spearman相关系数。结果表明,不同参数组合下的相互作用模式保持高度一致,最低的Spearman相关系数仍超过0.7(图S1)。这些结果说明,推断得到的相互作用系数对参数选择不敏感,从而支持了物种间相互作用系数推断结果的稳健性。
图2. MicrobTiSDA的综合性能评估
(A)基于模拟数据的物种间相互作用推断的平均受试者工作特征曲线(ROC);(B)物种间相互作用推断的平均绝对误差(MAE)、均方误差(MSE)以及符号准确率(SignAcc)汇总箱线图;(C)MicrobTiSDA的回归模型拟合模块在模拟数据集上随微生物特征数量增加(796至20884个特征)的运行时间;(D)物种间相互作用推断模块在不同特征数量模拟数据集(59至796个特征)上的运行时间。
MicrobTiSDA计算效率的评估
为了评估MicrobTiSDA在高维条件下的计算效率,我们使用了一个婴儿肠道微生物组数据集,该数据集记录了12位婴儿出生一年内的肠道菌群变化。我们选择了在出生后第6天至第60天期间采集的异卵双胞胎样本。原始数据集包含77个粪便样本(ID10个体34个,ID11个体43个)以及476921个微生物特征。通过插值,我们重建了两名个体的连续时间序列,每个个体包含55个时间点。
鉴于MicrobTiSDA的核心功能包括物种间相互作用推断和自然样条回归,我们重点评估了这两个模块在高维数据集上的计算性能。对于回归建模任务,我们应用最小丰度过滤阈值(0至100,步长为2)生成了50个测试子集,每个子集包含110个样本,微生物特征数量从796到20884不等。结果显示,运算时间与特征数量之间呈现高度线性关系(R2= 0.992,p<0.05;图2C),表明回归任务在高维下具有可扩展的计算成本。
对于物种交互作用推断,由于MicrobTiSDA使用了Bagging策略以增强稳健性,其计算成本较高。因此,我们采用更严格的特征过滤(总丰度阈值1000-3000,步长100),生成30个测试子集,每个子集包含110个样本和59至796个微生物特征。结果显示,运行时间随特征数量非线形增加(R2= 0.999,p< 0.05;图2D),反映了高维条件下计算需求的增长。这意味着通过适当的特征过滤,MicrobTiSDA在物种相互作用推断任务中具有可行的计算性能。
综上所述,MicrobTiSDA在回归建模任务中具有高度的计算可扩展性,而物种间相互作用推断则需在特征维度和可用计算资源之间取得平衡。这些性能特征的评估结果支持MicrobTiSDA在大规模微生物组时间序列分析中的实际应用价值。
MicrobTiSDA的综合应用
在对MicrobTiSDA的性能及计算效率进行系统评估之后,我们将该R包应用于三类真实微生物组数据集:(1)体外培养的水生微生物群数据集;(2)健康足月婴儿出生后一年内的肠道群菌的时间序列数据集;(3)与早产儿败血症相关的肠道菌群时间序列数据集。
在体外水生微生物组数据集中,MicrobTiSDA揭示了八个独立重复实验的水生微生物组的时间动态丰度变化(图S2-S10),推断了物种间的相互作用,并识别出可能调控群落动态的关键物种(图S11)。对于足月婴儿数据集中的一对异卵双胞胎肠道菌群,我们分析了出生后第6天至第60天期间的肠道微生物群的时间动态,并确定了个体特异性的关键物种(图S12-S14)。最后,利用随机森林分类模块,我们识别出了能够有效区分因感染致病性大肠杆菌引发败血症的早产儿与匹配的对照早产儿的微生物标志物,并比较了两组被试生物标志物的时间动态丰度模式(图S15和图S16)。这些分析结果凸显了MicrobTiSDA在生态学和临床研究中的灵活性与适用性。
结 论
纵向微生物组分析对于阐明宿主相关及环境微生物群落的时间动态至关重要。然而,在数据处理与分析,尤其是物种间相互作用的推断和微生物特征丰度时间模式的表征方面仍具有挑战性。尤其对于缺乏生物信息学经验的研究人员而言,这种复杂性还因整合不同工具及处理步骤的输出内容而进一步增加。为应对这些挑战并简化纵向微生物组分析流程,我们开发了MicrobTiSDA。这是一个高度集成、面向工作流程的R包,涵盖从数据预处理到统计建模与可视化的完整分析管线。通过简化整个微生物组时间序列分析流程,MicrobTiSDA能够实现可重复、用户友好且全面的纵向微生物组分析。
代码和数据可用性:
本研究所开发R包的源码、详细使用示例以及测试数据集均可于GitHub(https://github.com/Lishijiagg/MicrobTiSDA)获取。更详细的数据信息可联系通讯作者获取。补充材料(文本、图、表、中文翻译版本或视频)也可从线上(http://www.imeta.science/)获取。
引文格式:
Shijia Li, Remco Kort, Tim G.J. de Meij, Stanley Brul, Meike T. Wortel, Johan A. Westerhuis. 2025. “MicrobTiSDA: a flexible R package for inferring interspecies interactions and abundance dynamics in microbiome time-series data.”iMetaOmics2: e70067. https://doi.org/10.1002/imo2.70067
作者简介
李时佳(第一作者)
● 阿姆斯特丹大学理学院在读博士生。
●研究方向为微生物组数据分析以及微生物全基因组代谢模型的应用。
Meike T. Wortel(通讯作者)
● 阿姆斯特丹大学理学院助理教授,博士生导师。
● 研究方向为利用使用数学工具和计算方法来了解微生物进化,以及微生物组和抗生素耐药性进化系统生物学理论。在Science和PLoS computational biology等高影响力期刊上发表研究论文27篇。
Johan A. Westerhuis(通讯作者)
●阿姆斯特丹大学理学院助理教授,博士生导师。
● 研究方向为高维组学数据分析方法开发。共发表研究论文198篇。
更多推荐
(▼ 点击跳转)
高引文章 ▸▸▸▸
iMeta | 引用20000+,海普洛斯陈实富发布新版fastp,更快更好地处理FASTQ数据
高引文章 ▸▸▸▸
iMeta | 兰大张东组:使用PhyloSuite进行分子系统发育及系统发育树的统计分析
高引文章▸▸▸▸
iMeta | 唐海宝/张兴坦-用于比较基因组学分析的多功能分析套件JCVI
iMeta封面
1卷1期
1卷2期
1卷3期
1卷4期
2卷1期
2卷2期
2卷3期
2卷4期
3卷1期
3卷2期
3卷3期
3卷4期
3卷5期
3卷6期
4卷1期
4卷2期
4卷3期
4卷4期
4卷5期
iMetaOmics封面
1卷1期
1卷2期
2卷1期
2卷2期
2卷3期
iMetaMed封面
1卷1期
1卷2期
期刊简介
“iMeta” 是由威立、宏科学和本领域数千名华人科学家合作出版的开放获取期刊,主编由中科院微生物所刘双江研究员和荷兰格罗宁根大学傅静远教授担任。目的是发表所有领域高影响力的研究、方法和综述,重点关注微生物组、生物信息、大数据和多组学等前沿交叉学科。目标是发表前10%(IF > 20)的高影响力论文。期刊特色包括中英双语图文、双语视频、可重复分析、图片打磨、60万用户的社交媒体宣传等。2022年2月正式创刊!相继被Google Scholar、PubMed、SCIE、ESI、DOAJ、Scopus等数据库收录!2025年6月影响因子33.2,中科院分区生物学1区Top,位列全球SCI期刊前千分之三(65/22249),微生物学科2/163,仅低于Nature Reviews,学科研究类期刊全球第一,中国大陆5/585!
“iMetaOmics” 是“iMeta” 子刊,主编由中国科学院北京生命科学研究院赵方庆研究员和香港中文大学于君教授担任,目标是成为影响因子大于10的高水平综合期刊,欢迎投稿!
"iMetaMed" 是“iMeta” 子刊,专注于医学、健康和生物技术领域,目标是成为影响因子大于15的医学综合类期刊,欢迎投稿!
iMeta主页:
http://www.imeta.science
姊妹刊iMetaOmics主页:
http://www.imeta.science/imetaomics/
出版社iMeta主页:
https://onlinelibrary.wiley.com/journal/2770596x
出版社iMetaOmics主页:
https://onlinelibrary.wiley.com/journal/29969514
出版社iMetaMed主页:
https://onlinelibrary.wiley.com/journal/3066988x
iMeta投稿:
https://wiley.atyponrex.com/journal/IMT2
iMetaOmics投稿:
https://wiley.atyponrex.com/journal/IMO2
iMetaMed投稿:
https://wiley.atyponrex.com/submission/dashboard?siteName=IMM3
邮箱:
office@imeta.science