最小二乘法(Least Squares Method)是统计学和线性回归中最经典、最基础的算法。
如果说 “最大似然估计(MLE)”是一种哲学思想(由果推因),那么“最小二乘法”就是这种思想在正态分布下最完美、最实用的数学落地工具。
本文博主继续用通俗的语言和生活中的例子来拆解。
一、 通俗解释:寻找“最完美”的平衡点
通俗解释:
最小二乘法的核心目标只有一个:画一条最完美的直线,让这条直线离所有的数据点“总距离”最近。
生活中的例子:
想象你在玩飞镖,靶心是“真实数据”,你扔出的飞镖是“预测直线”。
- 如果直线画得太偏,飞镖(数据点)到直线的距离就会很远。
- 最小二乘法就是不断调整直线的角度和位置,直到所有飞镖到直线的距离的“平方总和”达到最小。这时候,这条直线就是最完美的。
二、 为什么非要“平方”?(核心精髓)
在计算误差时,最小二乘法要求把每个数据点到直线的距离平方后再相加。为什么不能直接算距离?
- 消除负号(防止误差互相抵消):
数据点有的在直线上方(误差是 +5),有的在直线下方(误差是 -5)。如果不平方直接相加,+5 和 -5 就抵消变成 0 了。模型会误以为自己预测得很准,但实际上误差极大。平方之后,正负号全变成了正数。 - 惩罚“大错”(让模型更稳健):
误差是 2,平方是 4;误差是 10,平方是 100。平方操作让模型对“偏离特别远的点”极其敏感。为了不让总误差飙升,模型会拼命把直线往那些“大错点”的方向拉一拉,从而找到一个全局最平衡的位置。
三、 最小二乘法与最大似然估计(MLE)的绝妙闭环
还记得博主前面讲过的 MLE 吗?在这里,它们完美地握手了。
- MLE 的视角:假设数据点的误差服从正态分布,寻找让当前数据发生概率最大的那条直线。
- 最小二乘法的视角:寻找让所有数据点到直线的“误差平方和”最小的那条直线。
💡 核心洞察:
在数学上可以严格证明:当且仅当误差服从正态分布时,MLE 的推导结果,在数学形式上完全等价于最小二乘法。
也就是说,最小二乘法其实就是 MLE 在正态分布假设下的“特例”。这也解释了为什么我们在用最小二乘法时,总是要假设数据符合正态分布。
四、 最小二乘法的优缺点
✅ 优点:
- 极其简单、优雅:不需要复杂的迭代(像 EM 算法那样),只要数据量不是大到离谱,直接套用一个矩阵公式(θ=(XTX)−1XTy\theta = (X^TX)^{-1}X^Tyθ=(XTX)−1XTy),一秒钟就能算出最佳直线的参数。
- 理论极其扎实:它是无偏估计,且在正态分布下具有最优的统计性质。
❌ 缺点(与 MSE 类似):
- 极度害怕异常值(Outliers):因为要“平方”,如果一个数据点偏离了 100 倍,它的误差平方就会放大 10000 倍!这会把整条直线严重带偏。
- 只能拟合线性关系:标准的最小二乘法只能画直线。如果数据本身是弯曲的,它就不管用了(除非引入多项式特征进行非线性扩展)。
五、 一句话总结
最小二乘法是一种通过“最小化误差平方和”来寻找最佳拟合直线的数学工具。它计算简单、理论完美,是最大似然估计在正态分布下的完美化身,也是整个线性回归算法的基石。