一、为什么会过拟合
模型太 “自由”,权重 w 变得特别大:
对训练集噪声、异常点过度学习
训练集损失极低,测试集 / 新数据效果很差
直观:权重越大,函数曲线越扭曲、波动越剧烈
二、正则化核心思想
在损失函数里多加一项「惩罚项」:
限制权重 w 不能太大,强制参数变平滑、简单模型不要太 “极端”,从而抑制过拟合
三、逻辑回归 原版损失(无正则)
四、L2 正则化(最常用,权重衰减)
1.公式
- λ:正则化系数(超参数)
- λ=0:无正则 λ 越大:惩罚越强,权重越小,越不容易过拟合
- 只惩罚权重 w,不惩罚偏置 b(行业通用做法)
2. 作用
让所有权重趋近于 0 但不为 0
压缩参数大小,限制模型复杂度
特征全部保留,适合大部分场景(逻辑回归默认 L2)
五、L1 正则化(稀疏化)
1. 公式
2. 作用
- 会让不重要特征的权重直接变成 0
- 自动特征选择、降维
- 产生稀疏模型,特征多、冗余大时好用
六、关键总结
过拟合本质:参数 w 过大,模型太复杂
正则化本质:惩罚大权重,限制模型复杂度
L2 正则:权重变小、平滑、通用首选
L1 正则:权重置零、自动筛特征
λ 调参
太小 → 正则弱,依旧过拟合
太大 → 权重被压太小,欠拟合
七、延伸:
逻辑回归:
过拟合时部分 w 爆炸式变大;加 L1/L2 惩罚,强行按住 w,完美闭环。