news 2026/2/22 9:06:49

风控模型中的KS值

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
风控模型中的KS值

文章目录

  • 1 KS值概述
  • 2 KS值的计算原理
    • 2.1 基本概念
    • 2.2 计算步骤
  • 3 KS曲线(KS Plot)
    • 理想情况下的KS曲线:
  • 4 KS值的解读标准
  • 5 计算示例
  • 6 KS值的优缺点
    • 优点:
    • 缺点:
  • 7 KS值 vs AUC
  • 8 总结

1 KS值概述

KS(Kolmogorov-Smirnov)值是一种衡量分类模型(尤其是二分类模型)区分能力的指标。它通过比较正负样本的累积分布来评估模型将"好客户"和"坏客户"分开的能力。

核心思想:一个完美的模型应该能够将所有的"坏客户"(正样本)和"好客户"(负样本)完全分开。

2 KS值的计算原理

2.1 基本概念

在计算KS值时需要得到:

  • 模型预测概率:模型对每个样本预测为正类(如"坏客户")的概率
  • 真实标签:样本的真实类别(好/坏)

2.2 计算步骤

  1. 按预测概率排序:将样本按照模型预测的概率从高到低排序
  2. 等分分组:将排序后的样本分成若干组(通常10-20组)
  3. 计算累积分布
    • 累积好客户占比:从概率最高组开始,累计好客户数量占总好客户的比例
    • 累积坏客户占比:从概率最高组开始,累计坏客户数量占总坏客户的比例
  4. 计算KS值:找到累积坏客户占比与累积好客户占比的最大差值

数学公式
K S = max ⁡ i = 1 n ∣ F bad ( i ) − F good ( i ) ∣ KS = \max_{i=1}^{n} |F_{\text{bad}}(i) - F_{\text{good}}(i)|KS=i=1maxnFbad(i)Fgood(i)

其中:

  • F bad ( i ) F_{\text{bad}}(i)Fbad(i):前i组中坏客户的累积占比
  • F good ( i ) F_{\text{good}}(i)Fgood(i):前i组中好客户的累积占比
  • n nn:分组数量

3 KS曲线(KS Plot)

KS值通常通过KS曲线来可视化:

  • 横轴:分组序号(从预测概率最高到最低)
  • 纵轴:累积百分比
  • 两条曲线
    • 坏客户累积分布曲线:上升较快,因为坏客户集中在高分区域
    • 好客户累积分布曲线:上升较慢,因为好客户相对均匀分布
  • KS值:两条曲线之间的最大垂直距离

理想情况下的KS曲线:

  • 坏客户曲线迅速上升到1,然后保持平稳
  • 好客户曲线缓慢上升
  • 两条曲线分离度很大

4 KS值的解读标准

根据经验,KS值的评价标准如下:

KS值范围模型区分能力评价
< 0.2模型基本没有区分能力
0.2 - 0.3一般有一定的区分能力,但较弱
0.3 - 0.5较好模型有较好的区分能力
0.5 - 0.75模型有很强的区分能力
> 0.75极强(可能可疑)需要检查是否存在数据泄露

注意

  • 在金融风控领域,KS值通常要求大于0.3
  • KS值不是越高越好,过高的KS值可能意味着过拟合或数据泄露
  • KS值对样本分布比较敏感

5 计算示例

假设我们有10个样本,按预测概率排序后的结果:

样本预测概率真实标签累积坏客户占比累积好客户占比差值
10.950.200.2
20.900.400.4
30.850.40.1250.275
40.800.60.1250.475
50.750.60.250.35
60.700.80.250.55
70.650.80.3750.425
80.600.80.50.3
90.551.00.50.5
100.501.01.00

计算过程

  • 总坏客户数:5个
  • 总好客户数:5个
  • 在第6个样本处,差值最大:0.55

因此,KS值 = 0.55

6 KS值的优缺点

优点:

  1. 直观易懂:通过单一数值反映模型区分能力
  2. 业务解释性强:在金融风控中广泛使用
  3. 不受类别不平衡影响:关注的是分布差异,而不是绝对数量
  4. 阈值无关:不像准确率那样依赖于特定分类阈值

缺点:

  1. 对样本分布敏感:样本分布变化会影响KS值
  2. 只关注最大差异:可能忽略了整体的分布信息
  3. 在深度学习中较少使用:更多使用AUC等指标
  4. 受分组数量影响:不同的分组方式可能得到不同的KS值

7 KS值 vs AUC

特征KS值AUC
关注点累积分布的最大差异ROC曲线下的面积
范围[0, 1][0.5, 1]
业务解释模型最大区分程度整体排序能力
敏感性对分布敏感相对稳定
应用场景金融风控、信用评分通用分类问题

关系:一般来说,KS值和AUC有正相关关系,但不是严格的线性关系。

8 总结

KS值是风险评分模型中至关重要的评估指标:

  • 核心:衡量模型区分正负样本的能力
  • 计算:通过比较累积分布的最大差异
  • 标准:通常要求KS > 0.3
  • 可视化:通过KS曲线直观展示
  • 应用:特别适用于金融风控、信用评分等场景

掌握KS值不仅有助于模型评估,还能帮助理解模型的业务表现,是在风险建模领域必须掌握的核心指标之一。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/21 9:06:32

基于STM32单片机的汽车疲劳驾驶监测系统设计

基于STM32单片机的汽车疲劳驾驶监测系统设计摘要随着汽车保有量的持续增长&#xff0c;交通安全问题日益受到社会关注。疲劳驾驶和酒后驾驶是导致交通事故的主要人为因素之一。本文设计了一种基于STM32单片机的汽车疲劳驾驶监测系统&#xff0c;通过集成MAX30102心率血氧传感器…

作者头像 李华
网站建设 2026/2/21 0:36:50

HuggingFace项目实战之填空任务实战

目录&#xff1a;一、使用场景二、代码分析一、使用场景 大模型在填空任务中的应用主要涉及自动补全、内容生成和知识推理等场景&#xff0c;其核心能力在于基于上下文预测缺失信息。 二、代码分析 import torchfrom transformers import AutoTokenizer#加载tokenizer token…

作者头像 李华
网站建设 2026/2/23 0:38:28

【图像加密】基于正弦 余弦混沌映射生成随机序列,对图像 RGB 三通道分别执行 “行移位 - 列移位 - XOR 异或” 操作实现图像加密解密附matlab代码

✅作者简介&#xff1a;热爱科研的Matlab仿真开发者&#xff0c;擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。 &#x1f34e; 往期回顾关注个人主页&#xff1a;Matlab科研工作室 &#x1f447; 关注我领取海量matlab电子书和数学建模资料 &#x1…

作者头像 李华
网站建设 2026/2/19 3:27:50

基于深度学习神经网络YOLOv5目标检测的安全帽识别系统

第一步&#xff1a;YOLOv5介绍 YOLOv5是一种目标检测算法&#xff0c;它是YOLO&#xff08;You Only Look Once&#xff09;系列的最新版本。YOLOv5在YOLOv4的基础上进行了改进和优化&#xff0c;以提高检测的准确性和速度。 YOLOv5采用了一些新的技术和方法来改进目标检测的…

作者头像 李华