分子动力学基准测试框架：加权集成采样与TICA评估ML模型性能-开发者社区

1. 项目概述与核心挑战

在计算生物物理和药物发现领域，分子动力学模拟是我们理解蛋白质、核酸等生物大分子如何“动起来”的核心工具。简单来说，它就像一台超级计算机上的“分子摄像机”，通过求解物理定律，逐帧记录原子在势能面上的运动轨迹。这让我们能亲眼“看到”蛋白质如何折叠、如何与药物分子结合、如何在不同的功能构象之间切换。然而，这门技术有一个众所周知的“阿喀琉斯之踵”：时间尺度瓶颈。即便动用当今最强大的超级计算机，一次全原子模拟通常也只能覆盖纳秒到微秒级别的时间，而许多关键的生物学过程，比如蛋白质的完全折叠或某些酶的催化循环，往往发生在毫秒甚至秒级。这个鸿沟使得我们难以通过常规模拟捕获那些决定性的、但发生概率极低的“稀有事件”。

为了跨越这个鸿沟，增强采样技术应运而生。其中，加权集成采样是一种非常巧妙的策略。它不像传统模拟那样只跑一条长长的轨迹，而是并行运行大量较短的轨迹副本，并定期根据它们在构象空间中的“进展”进行智能化的资源再分配——给那些探索到新区域的轨迹分配更多计算资源，同时淘汰那些在原地打转的。这种方法极大地提高了对稀有事件和复杂能量景观的采样效率。近年来，机器学习，特别是图神经网络，被引入来构建更高效的分子力场，催生了“机器学习分子动力学”。这些模型潜力巨大，但评估它们却成了新难题：不同的研究团队使用不同的蛋白质、不同的评估指标、不同的采样协议，导致模型之间“鸡同鸭讲”，难以进行公平、可复现的比较。

这正是我们构建这个基准测试框架的初衷。我们深感领域内缺乏一个“标准考场”，来系统、客观地衡量不同MD方法，尤其是新兴的ML-MD模型，在构象采样准确性和计算效率上的真实表现。我们的目标不是提出一个新算法，而是搭建一个模块化、可扩展、物理意义明确的评估体系。这个框架以加权集成采样为引擎，以时滞独立成分分析作为构象空间的“地图”，并集成了超过19种从全局到局部、从结构到动力学的量化指标。我们相信，只有建立了统一的“度量衡”，才能推动整个领域朝着更可靠、更高效的方向发展。

2. 框架整体设计与核心思路拆解

2.1 为什么是加权集成采样 + TICA？

构建一个有效的基准测试，核心在于如何高效且无偏地探索高维构象空间，并从中提取可比较的慢速动力学信息。我们选择了加权集成采样作为增强采样的核心，并搭配时滞独立成分分析作为构象空间的“导航仪”和“度量尺”，这背后有一系列深思熟虑的考量。

首先，加权集成采样的优势在于其原理的简洁性和强大的并行能力。它通过运行大量并行的短轨迹，并基于用户定义的“进展坐标”定期进行重采样，将计算资源动态地引导至尚未充分探索的构象区域。这与许多其他增强采样方法（如元动力学）需要预先定义反应坐标或施加偏置势能不同，WE方法对系统的先验知识依赖更少，更适用于探索未知的构象空间。我们框架的核心引擎是WESTPA 2.0，这是一个成熟、开源且高度可扩展的WE实现，它提供了我们所需的稳健性和灵活性。

其次，TICA是我们框架的“灵魂”所在。蛋白质的运动包含成千上万个自由度，但其中只有少数几个“慢模式”主导着其大尺度的构象变化，如结构域的打开与闭合、折叠与去折叠。TICA是一种无监督的降维技术，它能够从高维的轨迹数据（如所有原子的坐标）中，自动提取出这些变化最缓慢的集体运动模式，并将其排序。我们将提取出的前几个TIC分量（通常是TIC 0和TIC 1）作为构象空间的低维投影。这个二维或三维的“地图”有几个关键作用：

定义进展坐标：在WE模拟中，我们直接使用TIC分量值作为“进展坐标”。系统在TICA空间中的扩散，直观地反映了其在真实高维构象空间中的缓慢探索过程。
构建评估基准：我们将“地面真值”数据（即长时间、多起点、无偏的经典MD模拟轨迹）投影到TICA空间，得到其概率密度分布。任何待评估的模型（无论是经典力场还是ML模型）的采样结果，都可以投影到同一个TICA空间，通过比较其概率密度分布与地面真值的重合度，来定量评估其构象采样的完备性和准确性。
识别亚稳态：通过聚类和马尔可夫状态模型分析，我们可以在TICA空间上划分出不同的“宏状态”，这些宏状态对应着蛋白质不同的稳定构象或折叠中间态，有助于理解模型的动力学行为。

这种“WE驱动探索，TICA量化评估”的组合，形成了一个完整的闭环。WE确保模型能有效地在构象空间中漫游，避免陷入局部极小值；而TICA则提供了一套客观、可计算的标尺，来衡量这种漫游是否覆盖了正确的区域，以及其动力学是否与物理现实一致。

2.2 模块化架构：如何做到“海纳百川”

一个优秀的基准测试框架必须具有普适性，不能只绑定在某一种特定的模拟软件或力场模型上。我们的框架从设计之初就贯彻了模块化的思想，核心是将“模拟引擎”与“采样和分析逻辑”解耦。

整个框架的流程可以概括为：预处理 -> WE模拟 -> 后处理分析与可视化。

预处理：准备蛋白质的初始结构，并基于地面真值数据训练TICA模型。这个TICA变换矩阵将被固定，用于后续所有模型轨迹的投影，确保比较基准的一致性。
WE模拟核心：这是框架的“驾驶舱”。我们实现了一个轻量级的“传播器”接口。任何分子动力学模拟程序，只要能够被封装成一个遵循此接口的“传播器”，就可以无缝接入我们的WE采样循环。目前，我们已经为以下三种典型场景提供了实现：
- 经典全原子MD（隐式溶剂）：基于OpenMM，使用AMBER14力场和GBn2隐式溶剂模型。这提供了较高的物理保真度，作为验证基准方法自身有效性的“金标准”。
- 经典全原子MD（显式溶剂）：同样基于OpenMM，使用TIP3P-FB水模型。这生成了我们用作地面真值的高质量参考数据。
- 机器学习粗粒化模型：我们实现了对CGSchNet模型的支持。CGSchNet是一种基于图神经网络的粗粒化力场，它将多个原子聚合成一个“珠子”，大幅降低了计算成本，是ML-MD的代表。开发者可以非常容易地为新的模拟引擎（如GROMACS、NAMD、或自定义的PyTorch/TensorFlow模型）编写传播器，只需实现“初始化系统”、“执行若干步模拟”、“返回构象和能量/力”等几个核心方法即可。
后处理分析套件：模拟完成后，框架会自动调用分析模块，生成一整套评估报告。这包括TICA空间的概率密度对比图、接触图差异、回转半径分布、以及键长、键角、二面角等局部几何参数的分布对比。所有计算都支持使用WESTPA分配的统计权重进行加权，以校正增强采样带来的偏差，得到平衡态下的统计量。

这种设计使得框架极具扩展性。未来，无论是新的增强采样算法、新的机器学习架构（如等变神经网络），还是针对膜蛋白、核酸等不同体系的专用模型，都可以快速集成进来，在同一个平台��接受公平的检验。

注意：关于“地面真值”的构建：一个常见的误区是认为地面真值必须是“绝对正确”的。在实际操作中，我们通过运行大量（数千个）独立的、从不同起始构象出发的经典全原子显式溶剂MD短轨迹（每个4纳秒），来拼接出目标蛋白质在300K温度下的近似平衡构象系综。虽然这无法捕获那些需要毫秒以上才能发生的超慢事件，但对于我们选定的这9个小型至中型快折叠蛋白，这种策略已被证明能对其折叠景观进行充分采样，为评估其他方法的构象采样能力提供了一个坚实、可复现的参考基准。

3. 基准测试套件：超过19种指标的深度解析

我们的评估不是简单地看一个“总分”，而是通过一个包含超过19种可视化图表和量化指标的综合套件，从多个维度对模型进行“立体式体检”。这些指标大致可分为五大类，每一类都揭示了模型性能的不同侧面。

3.1 全局构象动力学：TICA概率密度与宏状态

这是评估的“重头戏”，关注模型是否能捕捉蛋白质大尺度的构象变化。

2D TICA轮廓图：将模型和地面真值的轨迹投影到TICA 0和TICA 1构成的平面上，并计算加权的核密度估计。通过对比两者概率密度分布的等高线图，可以直观地看出模型是否采样了正确的构象区域，以及各区域的相对概率是否准确。分布的重叠程度是衡量构象采样完备性的核心指标。
1D TICA边缘分布：分别绘制TIC 0, 1, 2, 3分量的直方图。这有助于识别模型在某个特定慢模式方向上的偏差。
宏状态分析：在TICA空间上进行聚类（如K-means），然后利用PCCA+等方法将微状态聚类归并为几个物理意义明确的宏状态（如折叠态、去折叠态、中间态）。通过分析模型轨迹中各个宏状态的占据概率和转换路径，可以评估其是否能够复现正确的热力学和初步的动力学信息。

3.2 全局结构特性：接触图与回转半径

这类指标关注蛋白质的整体三维形状和紧凑度。

接触图差异：我们计算每对残基的Cα原子之间的平均距离，并对比模型与地面真值的差异。公式为：ΔC_ij = ⟨d_ij⟩_model - ⟨d_ij⟩_GT。结果以一个热图呈现，红色表示模型中的距离比真实情况更远（可能结构过于松散），蓝色表示更近（可能结构过于紧凑或发生了非天然接触）。这是检测整体折叠是否正确、是否维持了天然拓扑结构的敏感指标。
回转半径分布：回转半径是衡量分子整体尺寸和紧凑度的经典参数。通过比较Rg的分布，可以判断模型是否正确地采样了蛋白质的伸展与收缩状态。一个常见的错误是模型由于力场偏差，使蛋白质持续处于过度膨胀或过度压缩的状态。

3.3 局部结构保真度：键长、键角、二面角

即使全局构象看起来差不多，如果局部几何严重失真，那这个模型在原子细节上也是失败的。这部分是模型的“基本功”测试。

键长/键角/二面角分布：我们统计轨迹中所有化学键的长度、所有键角、以及蛋白质骨架的二面角（如φ, ψ）的分布。一个合格的力场或ML模型，必须能将键长约束在合理的物理范围内（例如Cα-Cα键长约3.8 Å）。如果分布出现明显的偏移或出现非物理的峰值（如键长小于3.5 Å或大于4.5 Å），则直接表明模型的基本化学直觉是错误的。这部分评估对于ML模型尤其重要，因为神经网络可能为了降低整体能量而“走捷径”，牺牲局部几何的准确性。

3.4 统计差异量化：Wasserstein距离与KL散度

为了给直观的图表配上硬核的数字，我们引入了两种统计距离来量化模型分布与地面真值分布之间的差异。

Wasserstein-1距离：通俗地讲，它衡量的是“将一个分布的形状搬移到另一个分布所需的最小平均工作量”。它对分布的细微差异比较敏感，并且总是有定义。数值越小，说明两个分布越接近。
Kullback-Leibler散度：衡量一个分布相对于另一个分布的信息损失。需要注意的是，KL散度是不对称的，且当模型分布在某个区域概率为零而真实分布不为零时，会趋于无穷大。因此，我们通常同时报告两种距离，以提供更全面的比较。

3.5 动力学建模：马尔可夫状态模型

虽然WE采样本身是经过偏置的，但我们可以利用MSM从加权轨迹中恢复出无偏的平衡态动力学信息。我们将TICA空间离散化，基于轨迹在离散状态间的跃迁计数构建转移概率矩阵，进而计算出平衡分布和特征弛豫时间。将MSM估计的平衡分布与直接加权得到的分布进行对比，可以作为内部一致性检验。此外，MSM估算的最大弛豫时间尺度，可以间接反映模型对慢速过程的捕获能力。

这套组合拳确保了评估的全面性：从慢速动力学到快速振动，从整体形状到局部细节，从定性可视化到定量度量，全方位地“拷问”模型的性能。

4. 实战演练：以Chignolin蛋白为例的完整评估流程

让我们以最小的测试蛋白Chignolin（10个残基）为例，走一遍使用本框架评估一个隐式溶剂全原子MD模型的全过程。这个过程清晰地展示了如何从原始数据得到一份完整的评估报告。

4.1 数据准备与地面真值构建

首先，我们需要建立评估的“标尺”——地面真值。我们从PDB数据库获取Chignolin的晶体结构，使用pdb-fixer修补缺失的原子和质子化状态。然后，我们使用OpenMM 8.2.0，搭配AMBER14力场和TIP3P-FB显式水模型，从9919个不同的起始构象（由Majewski等人提供，在350K下准备）分别进行模拟。每个模拟在300K下运行100万步，步长4飞秒，总计4纳秒。虽然每个短轨迹自身探索范围有限，但所有轨迹的集合覆盖了Chignolin在300K下丰富的构象空间。我们将这总计约4微秒的轨迹数据作为我们的“地面真值”参考集。

4.2 训练TICA模型与设置WE模拟

接下来，我们使用所有地面真值轨迹来训练一个TICA模型。具体步骤是：

将每条轨迹的每一帧蛋白质结构，用Alpha碳（Cα）坐标或骨架二面角等特征进行表征，形成一个高维时序数据。
使用deeptime或PyEMMA库对这时序数据执行TICA，选择适当的滞后时间。我们通常保留前4个TIC分量，其中前两个（TIC 0和TIC 1）通常能解释大部分慢运动方差。
将训练好的TICA变换矩阵保存下来。这个矩阵是后续所有比较的基准，必须固定不变。

现在，设置WE模拟来评估我们的“候选模型”——一个基于OpenMM GBN2隐式溶剂的全原子MD。我们从一个单一的起始构象（通常是晶体结构或一个平衡构象）开始。

传播器：配置我们的OpenMM隐式溶剂传播器，指定力场、积分器参数等。
进展坐标：设定为[TIC 0, TIC 1]的值。这意味着WESTPA将根据模拟轨迹在TICA空间二维平面上的位置来决定如何重采样。
分箱方案：我们采用最小自适应分箱法，在每个TICA维度上设置7个箱，目标是每个箱内维持3个行走者。MAB的好处是它能根据采样密度动态调整箱的边界，避免了手动定义边��的麻烦，特别适合探索未知的、不均匀的能量景观。
运行参数：每个WE迭代运行1000步MD（对应4皮秒），总共运行数千次迭代。模拟在超级计算机上并行执行，每个GPU运行一个轨迹片段。

4.3 结果分析与解读

模拟完成后，��架会自动调用分析脚本，生成如图6所示的一系列图表。我们来逐一解读：

图A：TICA二维轮廓对比。红色（模型）和蓝色（地面真值）的等高线图显示了在TICA空间上的概率密度。可以看到两者在主要区域高度重叠，表明隐式溶剂模型成功采样到了Chignolin的主要构象集合。然而，仔细看会发现红色等高线的峰值位置和形状与蓝色有细微差异，这反映了隐式溶剂模型与显式溶剂模型在能量景观上存在的系统偏差。Wasserstein距离（W1: 0.9282）和KL散度（0.7427）给出了这种差异的量化值。

图B：模型采样点图。这张图展示了WE模拟在TICA空间中的探索路径。每个点代表一个构象，颜色由浅到深表示WE迭代的进程。可以看到，采样点从初始位置（通常位于图中某处）开始，逐渐扩散开来，最终覆盖了与地面真值大部分重合的区域。这张图直观地证明了WE方法从单一起始点有效探索构象空间的能力。

图C：接触图差异。热图中大部分区域是浅蓝色或接近白色，说明模型与真实情况在大部分残基对的距离上差异很小。但可以观察到少数几个深蓝色方块（如残基对(3,1)），表明模型在这些位置使结构比真实情况更紧凑。这可能是隐式溶剂模型对某些局部相互作用的处理与显式溶剂存在差异导致的。

图D：局部几何参数分布。这是非常关键的“健康检查”。

回转半径：模型（红线）与真实（蓝线）分布形状相似，但峰值有偏移，模型倾向于更紧凑的结构（Rg略小），这与接触图显示的局部更紧凑现象一致。
键长分布：两者几乎完美重合（W1: 0.0002），说明模型在维持基本化学键长方面非常准确。
键角分布：重合度也很好（W1: 0.0871），表明局部几何形状保持得不错。
二面角分布：差异相对明显一些（W1: 0.5401），这通常意味着骨架的柔性或二级结构的倾向性存在偏差。

通过这一套分析，我们可以得出结论：这个隐式溶剂全原子MD模型在局部几何上非常可靠，能较好地采样全局构象空间，但在某些具体的构象分布和局部结构细节上与显式溶剂“金标准”存在可量化的差异。这正是一个好的基准测试希望揭示的信息——不是简单地说“好”或“坏”，而是精确地指出“好在哪，差在哪”。

5. 机器学习模型评估：揭示训练质量的影响

基准测试的一个核心应用是评估和比较不同的机器学习分子动力学模型。我们以CGSchNet这个图神经网络粗粒化模型为例，展示了框架如何清晰地区分一个“训练充分”的模型和一个“训练不足”的模型。

5.1 实验设置：全训练 vs. 欠训练

我们训练了两个CGSchNet模型，它们架构完全相同，区别仅在于训练数据：

全训练模型：使用我们基准测试集中所有9个蛋白质的全部帧数据进行训练。
欠训练模型：仅使用每个蛋白质10%的随机帧数据进行训练。

然后，我们将这两个模型分别作为传播器接入WE框架，在相同的初始条件和WE参数下，对Chignolin蛋白进行构象采样测试。

5.2 结果对比：性能鸿沟一目了然

图7的对比令人印象深刻。左侧欠训练模型的采样点（彩色散点）虽然也覆盖了一定区域，但其分布（颜色密度）与地面真值的黑色轮廓线匹配度很差，采样显得杂乱无章，且未能覆盖某些关键的构象区域。而右侧全训练模型的采样点则紧密地贴合在地面真值轮廓的内部，表明它学到的势能面能更准确地反映蛋白质真实的构象分布。

表7和表8的量化数据进一步证实了这一点。我们对比了Wasserstein-1距离和KL散度。以Chignolin的TIC 0为例：

欠训练模型：W1 = 0.3609， KL = 2.8054
全训练模型：W1 = 0.1904， KL = 0.2368 全训练模型在两个指标上都显著优于欠训练模型。更重要的是，在局部几何指标上，差异更为悬殊。例如，对于键长分布，全训练模型的W1距离低至0.0003，而欠训练模型为0.0023，相差近一个数量级。这强烈表明，欠训练模型不仅全局采样不准，其预测的原子间基本相互作用也出现了物理失真。

5.3 模型失稳的极端案例

框架的强大之处还在于它能捕捉到模型的** catastrophic failure**（灾难性失败）。如图8和图9所示，一个训练极差的模型在模拟Homeodomain蛋白时，可能导致蛋白质结构“爆炸”（原子间距离异常增大）或“坍缩”（异常缩小）。在基准测试结果中，这会表现为：

TICA图上采样点扩散到极其离谱、远离真实构象空间的区域。
接触图差异热图上出现大片深红或深蓝，表示距离偏差巨大。
键长/键角分布出现严重的非物理拖尾或峰值（例如，键长分布出现大量小于3Å或大于5Å的值）。框架会忠实地记录下这些异常，并输出巨大的差异度量值（如KL散度趋于无穷），明确无误地宣告模型“不合格”。这对于在模型开发早期快速识别和调试问题至关重要。

实操心得：ML-MD评估的关键点：评估机器学习力场时，绝不能只看重采样效率或速度。“采得快”不如“采得准”。我们的基准测试强调，必须同时评估构象采样的准确性（TICA、接触图、Rg）和局部结构的物理合理性（BAD分布）。一个跑得飞快的模型，如果其键角分布是错的，那它生成的所有轨迹都是没有物理意义的垃圾。因此，在报告结果时，应综合所有19+项指标，给出一个全面的性能画像。

6. 计算效率分析：速度与覆盖率的权衡

除了准确性，计算效率是评估模拟方法的另一个重要维度。我们的框架也能对此进行量化分析。我们定义了一个简单的指标：构象空间覆盖率。具体做法是将地面真值在TICA 0/1空间的范围离散化为一个100x100的网格，如果一个网格单元内既有地面真值点也有模型采样点，则认为该单元被“覆盖”。覆盖率就是被覆盖的单元数占总单元数的百分比。

表9展示了Chignolin蛋白上，全训练CGSchNet模型与隐式溶剂全原子MD模型，在达到20%、50%、80%覆盖率时所需的计算资源（以GPU时间计）。结果非常直观：

要达到20%的覆盖率，ML模型比全原子MD快约11倍。
要达到50%的覆盖率，ML模型快约11倍。
要达到80%的覆盖率，ML模型的优势扩大到25倍。

这个数据揭示了几个重要信息：

ML模型的显著加速：粗粒化+ML力场带来了数量级的速度提升，这与预期相符。
探索的难度非线性增加：对于全原子MD，从50%覆盖到80%覆盖，所需时间增加了近8倍（从70.5分钟到553.5分钟），而ML模型只增加了约3倍（从6.5分钟到21.7分钟）。这表明在探索构象空间的边缘区域时，全原子MD面临的能垒更高，探索更困难。
效率评估的上下文：这个比较是在“相同采样算法（WE）”的前提下进行的。它公平地衡量了不同“传播器”（即不同力场/模型）在相同增强采样策略下的效率。如果直接与无增强采样的传统MD比较，加速比会更为惊人，但那种比较因方法根本不同而意义有限。

因此，在报告性能时，一个完整的结论应该是：“在达到相近构象空间覆盖率的前提下，模型A比模型B快X倍，并且在结构保真度指标Y和Z上差异在可接受范围内”。速度和精度必须放在一起权衡。

7. 常见问题、挑战与解决方案实录

在实际部署和运行这个基准测试框架的过程中，我们遇到了不少典型问题。这里将其整理成排查��南，希望能帮助后来者少走弯路。

7.1 WESTPA模拟停滞不前，覆盖率无法提升

现象：WE模拟运行了很多迭代，但采样点始终在TICA空间的一个小区域内打转，覆盖率增长极其缓慢。
可能原因与解决方案：
1. 进展坐标选择不当：TICA模型可能没有捕捉到主导构象变化的慢模式。尝试使用不同的特征（如骨架二面角、残基接触距离）或调整TICA的滞后时间重新训练模型。也可以考虑使用其他降维方法（如PCA）或物理意义更明确的坐标（如RMSD、特定距离）作为补充或替代。
2. 分箱太粗糙或太精细：MAB分箱的初始参数可能不合适。如果箱太大，系统在一个箱内就能完成快速运动，WE无法有效分辨进展；如果箱太小，则行走者难以跨越箱边界。尝试调整bin_target_counts（每个箱的目标行走者数）和max_iters（最大迭代次数）。
3. 模拟步长/迭代长度不足：每次WE迭代的模拟时间太短，行走者没有足够的时间在势能面上移动到一个新的、有区别的位置。增加每个片段的模拟步数。
4. 系统本身动力学缓慢：对于某些具有极高能垒的蛋白质（如文中提到的a3D），即使使用WE，探索整个空间也需要极其漫长的模拟时间。这时需要结合其他增强采样技术，或者接受在有限计算资源下无法达到高覆盖率的事实，并据此合理解读结果。

7.2 TICA投影结果异常，模型与真实数据完全分离

现象：模型轨迹投影到TICA空间后，其点云与地面真值的点云完全位于不同的区域，没有重叠。
可能原因与解决方案：
1. 特征不一致：确保模型轨迹和地面真值轨迹在投影前，使用了完全相同的特征提取和预处理流程。例如，都是使用Cα坐标，且都进行了对齐（去除整体平移和旋转）。一个常见的错误是模型输出的是粗粒化坐标，而TICA模型是用全原子坐标训练的，这需要确保坐标映射一致。
2. TICA模型过拟合：用于训练TICA的地面真值数据可能不具有代表性，或者TICA维度选择过多导致捕捉了噪声。尝试使用更少的地面真值轨迹、增加轨迹的随机采样步长、或只保留前2个TIC分量重新训练。
3. 模型完全失效：如上文所述，模型可能已崩溃（爆炸/坍缩）。首先检查局部几何分布（键长、键角），如果出现非物理值，则问题出在模型本身，需要检查模型训练或推理过程。

7.3 局部几何分布（BAD）出现非物理峰

现象：键长分布图中出现了大量小于3.5 Å或大于4.5 Å的峰值。
可能原因与解决方案：
1. ML力场训练不足或架构缺陷：这是ML-MD模型最常见的问题。神经网络可能没有学到正确的短程排斥和键合相互作用。解决方案包括：增加训练数据中短程相互作用的样本；在损失函数中加入对键长、键角的直接约束；使用物理信息更强的架构（如显式包含周期性的距离滤波器）。
2. 积分器不稳定：模拟使用的积分步长过大。对于ML力场，由于其势能面可能与传统力场不同，可能需要使用更小的步长。尝试将步长从2 fs减小到1 fs或0.5 fs。
3. 单位制不一致：检查模型输出的力或能量单位是否与模拟引擎期望的单位匹配（通常是kJ/mol/nm和kJ/mol）。单位错误会导致积分器接收到错误量级的力，从而引发失稳。

7.4 计算资源消耗巨大

现象：运行一个蛋白质的完整基准测试需要数天甚至数周，消耗大量GPU资源。
优化策略：
1. 分层评估：不要一开始就在所有9个蛋白质上运行完整WE模拟。建议先在小蛋白（如Chignolin, Trp-cage）上进行快速测试和调试。
2. 减少WE规模：在开发调试阶段，可以显著减少行走者数量、总迭代次数和每个片段的长度。虽然这会降低采样质量，但能快速验证流程是否正确。
3. 利用检查点与重启：WESTPA支持检查点功能。将长任务分解为多个作业，充分利用集群的排队系统。
4. 分析阶段优化：分析脚本默认会生成所有19+种图表。如果只关注某些核心指标（如TICA轮廓和键长分布），可以修改分析脚本，只计算和绘制需要的部分，节省后处理时间。

7.5 结果解读与比较的陷阱

问题：如何判断一个模型的性能是“好”还是“差”？不同指标间出现矛盾怎么办？
解读指南：
1. 建立优先级：局部几何保真度（BAD）是一票否决项。如果键长、键角分布严重偏离物理真实，那么无论其构象采样多广，该模型在物理上都是不可信的。
2. 综合看待全局指标：TICA覆盖率和接触图差异需要结合来看。一个模型可能覆盖率很高，但接触图差异很大，说明它虽然探索了很大空间，但探索的都是“错误”的结构。理想的模型是两者都表现良好。
3. 理解指标的敏感性：Wasserstein距离对分布的平移和展宽敏感，而KL散度对概率为零的区域敏感。当两者结论不一致时，需要回去查看具体的分布图，理解差异的本质。
4. 考虑蛋白质特性：对于小型快折叠蛋白（如Chignolin），我们期望模型能覆盖绝大部分构象空间。但对于大型、结构复杂的蛋白，达到高覆盖率本身就很困难。因此，评估时应结合蛋白质本身的折叠复杂性来设定合理的预期。

这个框架的价值，正是在于它将模型评估从一个模糊的、定性的过程，转变为一个由数据驱动、多维度量化的科学过程。它不仅能告诉你哪个模型更好，更能清晰地指出好在哪里，差在何处，为模型的迭代优化提供了明确的导航。