1. 定位导航
上一篇说明了过拟合的危害——模型记住训练集噪声而无法泛化。本篇是实战武器库:每一种正则化技术的数学原理 + 数值推演 + 何时使用。
正则化的统一定义(Goodfellow):
正则化 = 修改学习算法,使其降低泛化误差(而非训练误差)的任何手段。
2. 正则化的统一框架
绝大多数正则化手段都可以写成在目标函数中添加惩罚项:
J~(θ;X,y)=J(θ;X,y)+α⋅Ω(θ)\tilde{J}(\boldsymbol{\theta}; \mathbf{X}, \mathbf{y}) = J(\boldsymbol{\theta}; \mathbf{X}, \mathbf{y}) + \alpha \cdot \Omega(\boldsymbol{\theta})