AB实验高阶技法（六）：PSM——在观察性数据中重构“平行世界”-开发者社区

—关注作者，送A/B实验实战工具包

在互联网产品的评估体系中，随机对照试验（Randomized Controlled Trial, RCT），即我们常说的 A/B 实验，被奉为因果推断的金标准。它通过物理上的随机分流，天然消除了组间差异。

但在实际业务中，完美的实验环境往往是一种奢望。全量上线的活动如何评估增量？用户自选领取的优惠券如何计算ROI？当物理层面的“平行世界”无法建立时，我们需要一种数学手段，在观察性数据（Observational Data）中模拟出实验环境。

这就是倾向性评分匹配（Propensity Score Matching, PSM）。

1. 核心概念：从“苹果比梨”到“苹果比苹果”

PSM 本质上是一种处理**选择性偏差（Selection Bias）**的统计学方法。

在非随机实验的数据中，处理组（Treatment Group）和对照组（Control Group）往往存在天然的异质性。例如，想评估“购买会员”对“留存率”的影响，直接对比会发现：购买会员的用户本身就比未购买的用户更活跃。这种由用户自身属性导致的差异，就是选择性偏差。如果不加处理直接对比，会将“用户本身的活跃”错误地归功于“会员权益”，导致高估策略效果。

PSM 的解决思路是：构造反事实（Counterfactual）。

既然我们无法改变用户是否购买会员的事实，那就在未购买的人群中，通过算法找到一群在年龄、性别、历史活跃度、消费能力等所有关键特征上，都与购买者高度相似的用户。将这两群人进行对比，就近似于在比较“同一个用户在购买与不购买两种状态下的差异”。

2. 决策场景：A/B 实验的“备胎”还是“补丁”？

PSM 并非 A/B 实验的替代品，而是其在特定约束下的强力补充。它通常活跃在以下三个场景：

2.1 事后分析（Post-hoc Analysis）

这是 PSM 最广泛的应用场景。当某个功能全量发布，或者某个大促活动没有预留对照组时，业务方需要回答“带来了多少增量”。此时，我们可以选取被干预的用户作为实验组，利用 PSM 在未受影响的历史数据或外部群体中筛选出虚拟对照组。

2.2 解决依从性问题（Compliance）

即使开启了 A/B 实验，用户的行为也未必完全受控。
例如“发放优惠券”实验：

实验组：100万人，仅10万人实际领取并核销。
对照组：100万人，无券。

如果直接对比两个100万群体（ITT, Intent-to-Treat），效果会被大量未领券的“沉默用户”稀释。如果只拿那10万核销用户与对照组全量对比，又引入了极大的选择性偏差。
此时利用 PSM，可以在对照组的100万人中，识别出那10万个“如果给券大概率也会核销”的潜在高意向用户，进行精准对比。

2.3 挽救有缺陷的实验

当 A/B 实验出现样本比率偏差（Sample Ratio Mismatch, SRM）或随机化失败（如某组混入了过多高活用户）时，可以利用 PSM 剔除导致不平衡的噪音样本，重新平衡组间特征，挽救实验结论。

3. 实施路径：PSM 的四步工作流

一个完整的 PSM 分析过程，包含严谨的四个步骤：

倾向性评分（Propensity Score Estimation）：计算每个用户进入实验组的概率。
匹配（Matching）：根据分数寻找替身。
平衡性检验（Balance Check）：验证匹配后的两组是否足够相似。
效应估计（Effect Estimation）：计算业务指标差异。

4. 关键步骤一：倾向性评分 (Propensity Score)

我们要解决的第一个问题是：面对用户成百上千的特征维度，如何判断两个用户“相似”？直接在高维空间进行匹配会出现“维度灾难”。PSM 的做法是将多维特征压缩为一个标量：倾向性评分。

4.1 特征选择：寻找混淆变量

特征选择是 PSM 成败的关键。与机器学习追求预测准确率不同，PSM 的特征选择原则是寻找混淆变量（Confounders）——即那些既影响用户是否进入实验组，又影响最终结果的变量。

选择原则：

必须是干预前变量（Pre-treatment Variables）：绝对不能包含受干预影响的变量。例如评估“会员效果”，特征可以是“购买前的周活跃天数”，但绝不能是“购买后的页面停留时长”。
业务强相关：基于业务逻辑，纳入那些真正驱动用户决策的特征（如年级、历史客单价、地理位置），而非无关噪声。

4.2 模型选择与评分计算

我们需要训练一个二分类模型，来预测用户属于实验组的概率。

e(x)=P(T=1∣X)e(x) = P(T=1 | X)e(x)=P(T=1∣X)

TTT：干预状态（Treatment），1代表实验组，0代表对照组。
XXX：特征向量（Covariates）。
e(x)e(x)e(x)：倾向性评分，取值范围 [0, 1]。

常用模型：

逻辑回归（Logistic Regression）：
经典且稳健。由于 PSM 的理论推导多基于线性假设，LR 具有极好的可解释性，是工业界的首选。
P(T=1∣X)=11+e−(β0+β1X1+...+βkXk)P(T=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X_1 + ... + \beta_k X_k)}}P(T=1∣X)=1+e−(β0+β1X1+...+βkXk)1
树模型（XGBoost / LightGBM）：
当特征间存在复杂的非线性关系（如“高活但低龄”的特殊群体）时，逻辑回归可能拟合不足。此时可以使用树模型输出的predict_proba作为倾向性评分。

通过这一步，我们将每个用户复杂的画像特征，浓缩成了一个 0 到 1 之间的概率值。这个分数越接近，说明两个用户在统计特征上越“像”。

5. 关键步骤二：匹配 (Matching)

有了倾向性评分，我们相当于给每个用户贴上了一个“相似度标签”。接下来的任务，就是拿着实验组用户的标签，去对照组的人海中寻找“替身”。

5.1 核心算法：最近邻匹配 (Nearest Neighbor Matching)

这是最直观且常用的方法。对于每一个实验组用户iii，我们在对照组中寻找一个或多个分数最接近的用户jjj。

在此过程中，有三个关键的工程决策点：

A. 卡尺 (Caliper)：拒绝“强扭的瓜”

如果实验组用户 A 的分数为 0.9，而对照组里最接近的用户 B 分数只有 0.6，虽然 B 是“最近邻”，但他们本质上并不相似。强行匹配会引入巨大偏差。
因此，我们需要设定一个卡尺（Caliper），通常设为倾向性评分标准差的 0.2 倍（例如 0.05）。
∣e(xi)−e(xj)∣<ϵ|e(x_i) - e(x_j)| < \epsilon∣e(xi)−e(xj)∣<ϵ
如果分差超过卡尺，该实验组样本将被直接丢弃。这虽然损失了样本量，但保证了匹配质量。

B. 1:1 匹配 vs 1:K 匹配

1:1 匹配：最稳健的选择。每个实验组用户只找一个最佳替身。优点是偏差（Bias）最小，因为匹配的总是最像的那一个。
1:K 匹配：每个实验组用户找 K 个替身（如 1:3）。
- 计算逻辑：在最终计算效应时，不是取 K 个人的特征均值，而是将这 K 个对照组用户的结果指标（Outcome Y）取均值，构建一个虚拟对照样本。
- 权衡：引入更多对照组样本可以降低方差（Variance），但第 2、第 3 个匹配对象的相似度必然不如第 1 个，因此会增加偏差。除非对照组样本极大，否则工业界通常推荐 1:1。

C. 放回 (Replacement) vs 无放回

无放回 (Without Replacement)：对照组用户一旦被匹配，就从池中移除。这保证了样本的独立性，便于后续的统计检验，是首选方案。
有放回 (With Replacement)：对照组用户可以被重复使用。这能保证总是匹配到最优解，但会导致样本间相关性复杂化，增加方差计算的难度。

6. 关键步骤三：平衡性检验 (Balance Check)

匹配完成后，必须回答一个问题：这两个组真的“平行”了吗？
我们不能使用 T 检验（T-test），因为 T 检验对样本量敏感，在大样本下微小的差异也会被判定为显著。PSM 的标准检验指标是SMD (Standardized Mean Difference，标准化均值差)。

6.1 SMD 计算公式

SMD=Xˉtreatment−XˉcontrolStreatment2+Scontrol22 SMD = \frac{\bar{X}_{treatment} - \bar{X}_{control}}{\sqrt{\frac{S_{treatment}^2 + S_{control}^2}{2}}}SMD=2Streatment2+Scontrol2Xˉtreatment−Xˉcontrol

分子：两组特征均值的差异。
分母：两组特征方差的“池化”标准差。

6.2 判定标准

SMD < 0.1：匹配效果极佳，两组在该特征上无显著差异。
SMD < 0.2：可以接受。
SMD > 0.2：匹配失败。说明该特征依然存在严重偏差，需要重新回到第一步调整模型或特征工程。

通常我们会绘制Love Plot，直观展示匹配前后各特征 SMD 的骤降过程。

7. 关键步骤四：效应估算 (Effect Estimation)

通过平衡性检验后，我们终于可以计算业务增量了。这里计算的指标通常是ATT (Average Treatment Effect on the Treated)。

ATT=E[Y(1)∣T=1]−E[Y(0)∣T=1]ATT = E[Y(1) | T=1] - E[Y(0) | T=1]ATT=E[Y(1)∣T=1]−E[Y(0)∣T=1]

E[Y(1)∣T=1]E[Y(1) | T=1]E[Y(1)∣T=1]：实验组实际观测到的结果（如留存率）。
E[Y(0)∣T=1]E[Y(0) | T=1]E[Y(0)∣T=1]：实验组用户如果未接受干预会产生的结果（这是反事实，由匹配到的对照组代替）。

注意：共同支撑假设 (Common Support)
在匹配过程中，那些分数极高（对照组找不到替身）或极低（实验组不存在此类人）的样本会被剔除。因此，我们计算的结论仅适用于**“两组特征重叠部分”的人群，而非全量人群。这正是 ATT 的含义所在：我们只评估那些“有可能接受干预，也有可能不接受干预”**的人。

8. Python 实战指南

在 Python 生态中，我们可以选择psmpy进行快速分析，或结合sklearn实现定制化逻辑。

方案 A：使用`psmpy`(快速上手)

适合标准化流程，内置了绘图和检验功能。

frompsmpyimportPsmPy# 1. 初始化与算分 (自动执行逻辑回归)psm=PsmPy(df,treatment='is_member',indx='user_id',exclude=[])psm.logistic_ps(balance=True)# 2. 执行匹配 (1:1, 无放回, 设定卡尺)psm.knn_matched(matcher='propensity_score',replacement=False,caliper=0.05)# 3. 平衡性检验可视化psm.plot_match(Title='Love Plot',Ylabel='Features',Xlabel='SMD',names=['Treatment','Control'])# 4. 获取匹配数据matched_df=psm.df_matched

方案 B：使用`sklearn`+`XGBoost`(高阶定制)

当需要使用树模型算分或进行 1:K 匹配时，建议手动实现。

fromxgboostimportXGBClassifierfromsklearn.neighborsimportNearestNeighborsimportnumpyasnp# 1. 使用 XGBoost 计算倾向性评分model=XGBClassifier()model.fit(X,T)df['ps_score']=model.predict_proba(X)[:,1]# 2. 使用 NearestNeighbors 进行匹配# n_neighbors=1 代表 1:1 匹配treated=df[df['T']==1]control=df[df['T']==0]nbrs=NearestNeighbors(n_neighbors=1,algorithm='ball_tree').fit(control[['ps_score']])distances,indices=nbrs.kneighbors(treated[['ps_score']])# 3. 卡尺过滤与数据提取caliper=0.05match_mask=distances.ravel()<caliper matched_treated=treated[match_mask]matched_control=control.iloc[indices[match_mask].ravel()]

9. 结语

PSM 是数据科学赋予产品经理的一把“手术刀”。它让我们在混乱的现实数据中，通过精细的数学切割，剥离出选择性偏差的干扰，还原业务策略的真实效果。

但请记住，PSM 依然建立在**“可观测特征”**的假设之上。如果存在某些关键因素（如用户的心情、未记录的线下行为）既影响了干预又影响了结果，且未被纳入模型，PSM 依然会失效。

因此，A/B 实验永远是物理世界的法律，而 PSM 是我们在无法触达法律时，所能追求的最高正义。

如果这篇文章帮你理清了思路，不妨点个关注，我会持续分享 AB 实验干货文章。

AB实验高阶技法（六）：PSM——在观察性数据中重构“平行世界”

1. 核心概念：从“苹果比梨”到“苹果比苹果”

2. 决策场景：A/B 实验的“备胎”还是“补丁”？

2.1 事后分析（Post-hoc Analysis）

2.2 解决依从性问题（Compliance）

2.3 挽救有缺陷的实验

3. 实施路径：PSM 的四步工作流

4. 关键步骤一：倾向性评分 (Propensity Score)

4.1 特征选择：寻找混淆变量

4.2 模型选择与评分计算

5. 关键步骤二：匹配 (Matching)

5.1 核心算法：最近邻匹配 (Nearest Neighbor Matching)

A. 卡尺 (Caliper)：拒绝“强扭的瓜”

B. 1:1 匹配 vs 1:K 匹配

C. 放回 (Replacement) vs 无放回

6. 关键步骤三：平衡性检验 (Balance Check)

6.1 SMD 计算公式

6.2 判定标准

7. 关键步骤四：效应估算 (Effect Estimation)

8. Python 实战指南

方案 A：使用`psmpy`(快速上手)

方案 B：使用`sklearn`+`XGBoost`(高阶定制)

9. 结语

亲测好用 8个AI论文网站：研究生毕业论文写作与格式规范全测评

Deepoc数学大模型：赋能半导体产业，破解研发与量产核心痛点

计算机毕业设计springboot大学生社会实践信息管理系统基于SpringBoot的高校社会实践活动全周期管理平台基于SpringBoot的大学生校外实践教学信息化服务平台

LangChain十年演进

好写作AI：再也不用“好像/可能/大概”了！学术语言变身指南

电子产品温升测试全攻略：从硬件搭建到软件分析的完整实操

1. 核心概念：从“苹果比梨”到“苹果比苹果”

2. 决策场景：A/B 实验的“备胎”还是“补丁”？

2.1 事后分析（Post-hoc Analysis）

2.2 解决依从性问题（Compliance）

2.3 挽救有缺陷的实验

3. 实施路径：PSM 的四步工作流

4. 关键步骤一：倾向性评分 (Propensity Score)

4.1 特征选择：寻找混淆变量

4.2 模型选择与评分计算

5. 关键步骤二：匹配 (Matching)

5.1 核心算法：最近邻匹配 (Nearest Neighbor Matching)

A. 卡尺 (Caliper)：拒绝“强扭的瓜”

B. 1:1 匹配 vs 1:K 匹配

C. 放回 (Replacement) vs 无放回

6. 关键步骤三：平衡性检验 (Balance Check)

6.1 SMD 计算公式

6.2 判定标准

7. 关键步骤四：效应估算 (Effect Estimation)

8. Python 实战指南

方案 A：使用psmpy(快速上手)

方案 B：使用sklearn+XGBoost(高阶定制)

9. 结语

亲测好用 8个AI论文网站：研究生毕业论文写作与格式规范全测评

Deepoc数学大模型：赋能半导体产业，破解研发与量产核心痛点

计算机毕业设计springboot大学生社会实践信息管理系统 基于SpringBoot的高校社会实践活动全周期管理平台 基于SpringBoot的大学生校外实践教学信息化服务平台

LangChain十年演进

好写作AI：再也不用“好像/可能/大概”了！学术语言变身指南

电子产品温升测试全攻略：从硬件搭建到软件分析的完整实操

方案 A：使用`psmpy`(快速上手)

方案 B：使用`sklearn`+`XGBoost`(高阶定制)

计算机毕业设计springboot大学生社会实践信息管理系统基于SpringBoot的高校社会实践活动全周期管理平台基于SpringBoot的大学生校外实践教学信息化服务平台