最小二乘法-开发者社区

最小二乘法（Least Squares Method）是统计学和线性回归中最经典、最基础的算法。

如果说 “最大似然估计（MLE）”是一种哲学思想（由果推因），那么“最小二乘法”就是这种思想在正态分布下最完美、最实用的数学落地工具。

本文博主继续用通俗的语言和生活中的例子来拆解。

一、通俗解释：寻找“最完美”的平衡点

通俗解释：
最小二乘法的核心目标只有一个：画一条最完美的直线，让这条直线离所有的数据点“总距离”最近。

生活中的例子：
想象你在玩飞镖，靶心是“真实数据”，你扔出的飞镖是“预测直线”。

如果直线画得太偏，飞镖（数据点）到直线的距离就会很远。
最小二乘法就是不断调整直线的角度和位置，直到所有飞镖到直线的距离的“平方总和”达到最小。这时候，这条直线就是最完美的。

二、为什么非要“平方”？（核心精髓）

在计算误差时，最小二乘法要求把每个数据点到直线的距离平方后再相加。为什么不能直接算距离？

消除负号（防止误差互相抵消）：
数据点有的在直线上方（误差是 +5），有的在直线下方（误差是 -5）。如果不平方直接相加，+5 和 -5 就抵消变成 0 了。模型会误以为自己预测得很准，但实际上误差极大。平方之后，正负号全变成了正数。
惩罚“大错”（让模型更稳健）：
误差是 2，平方是 4；误差是 10，平方是 100。平方操作让模型对“偏离特别远的点”极其敏感。为了不让总误差飙升，模型会拼命把直线往那些“大错点”的方向拉一拉，从而找到一个全局最平衡的位置。

三、最小二乘法与最大似然估计（MLE）的绝妙闭环

还记得博主前面讲过的 MLE 吗？在这里，它们完美地握手了。

MLE 的视角：假设数据点的误差服从正态分布，寻找让当前数据发生概率最大的那条直线。
最小二乘法的视角：寻找让所有数据点到直线的“误差平方和”最小的那条直线。

💡 核心洞察：
在数学上可以严格证明：当且仅当误差服从正态分布时，MLE 的推导结果，在数学形式上完全等价于最小二乘法。
也就是说，最小二乘法其实就是 MLE 在正态分布假设下的“特例”。这也解释了为什么我们在用最小二乘法时，总是要假设数据符合正态分布。

四、最小二乘法的优缺点

✅ 优点：

极其简单、优雅：不需要复杂的迭代（像 EM 算法那样），只要数据量不是大到离谱，直接套用一个矩阵公式（θ=(XTX)−1XTy\theta = (X^TX)^{-1}X^Tyθ=(XTX)−1XTy），一秒钟就能算出最佳直线的参数。
理论极其扎实：它是无偏估计，且在正态分布下具有最优的统计性质。

❌ 缺点（与 MSE 类似）：

极度害怕异常值（Outliers）：因为要“平方”，如果一个数据点偏离了 100 倍，它的误差平方就会放大 10000 倍！这会把整条直线严重带偏。
只能拟合线性关系：标准的最小二乘法只能画直线。如果数据本身是弯曲的，它就不管用了（除非引入多项式特征进行非线性扩展）。

五、一句话总结

最小二乘法是一种通过“最小化误差平方和”来寻找最佳拟合直线的数学工具。它计算简单、理论完美，是最大似然估计在正态分布下的完美化身，也是整个线性回归算法的基石。

美团Longcat团队推VitaBench 2.0：揭示AI成“高情商助理”的短板与挑战

AI能否分清不同用户需求？美团推VitaBench 2.0应对挑战一个经常加班的白领，一个带着孩子出游的父亲，AI助理能分清他们需要什么样的服务吗？现实是，它常常分不清。AI能执行明确指令，却难记住藏在场景和身份背后…

李华

3PEAK思瑞浦 TPA132A4-TS1R-S TSSOP8 电流信号检测放大器

特性增强型PWM抑制宽共模电压范围-工作电压:-4V至80V-残余电压:-10V至85V 供电电压:3.0V至5.5V卓越的共模抑制比150分贝直流共模抑制比在50kHz时的115dB交流共模抑制比精度与零漂性能 100V电压偏移(最大值，-40C至125C) -0.3%增益误差(最大值，-40C至12…