保姆级教程：手把手教你用NumPy实现线性回归（含MSE和R²计算）-开发者社区

从零构建线性回归模型：NumPy实战与数学原理深度解析

线性回归是机器学习领域最基础也最重要的算法之一，它不仅是数据科学入门的必修课，更是理解更复杂模型的基石。很多初学者在学习理论后，往往对如何用代码实现感到困惑——矩阵运算如何对应数学公式？评估指标怎样计算？参数如何优化？本文将用NumPy从零开始构建完整的线性回归模型，逐行解析代码背后的数学原理，让你不仅会"写代码"，更理解"为什么这样写"。

我们将从最基础的矩阵运算开始，逐步实现正规方程求解、预测函数、MSE和R²评估指标，最终封装成一个完整的LinearRegression类。整个过程无需任何机器学习框架，仅用NumPy就能完成。跟随本教程，你将在Jupyter Notebook或Python环境中亲手实现一个可运行、可复现的线性回归模型，真正掌握算法本质。

1. 环境准备与数据理解

在开始编码前，我们需要确保环境配置正确，并理解线性回归的基本假设。线性回归的核心是找到一条最佳拟合直线（或超平面），使得预测值与真实值之间的误差最小。数学上表示为：

y = Xθ + ε

其中：

y是目标变量
X是特征矩阵
θ是参数向量
ε是误差项

准备工作清单：

安装Python 3.6+和NumPy库（pip install numpy）
推荐使用Jupyter Notebook进行交互式开发
准备示例数据或使用sklearn内置数据集测试

提示：虽然我们会用NumPy实现，但了解scikit-learn的API设计很有帮助。我们最终的类将模仿sklearn的fit/predict接口。

2. 核心数学原理与NumPy实现

2.1 正规方程推导

线性回归的参数θ可以通过正规方程直接计算：

θ = (XᵀX)⁻¹Xᵀy

这个公式看起来简单，但包含了几个关键矩阵运算：

# 计算θ的NumPy实现 X_with_bias = np.hstack([X, np.ones((len(X), 1))]) # 添加偏置列 theta = np.linalg.inv(X_with_bias.T.dot(X_with_bias)).dot(X_with_bias.T).dot(y)

关键点解析：

np.hstack用于在特征矩阵X右侧添加一列1，对应偏置项（截距）
X.T.dot(X)计算XᵀX，需要确保矩阵可逆（即特征不共线）
np.linalg.inv计算矩阵逆，对于大型矩阵可能效率较低

2.2 预测函数实现

得到θ后，预测就是简单的矩阵乘法：

def predict(X, theta): X_with_bias = np.hstack([X, np.ones((len(X), 1))]) return X_with_bias.dot(theta)

这个预测函数将作为我们LinearRegression类的核心方法之一。

3. 评估指标实现

模型训练后，我们需要量化其性能。最常用的两个指标是均方误差(MSE)和决定系数(R²)。

3.1 均方误差(MSE)实现

MSE衡量预测值与真实值的平均平方误差：

def mse_score(y_true, y_pred): return np.mean((y_pred - y_true)**2)

MSE特点：

值越小越好，完美模型为0
对异常值敏感（因为平方放大误差）
与目标变量同量纲的平方

3.2 决定系数(R²)实现

R²表示模型解释的方差比例，计算为：

def r2_score(y_true, y_pred): y_mean = np.mean(y_true) ss_total = np.sum((y_true - y_mean)**2) ss_res = np.sum((y_pred - y_true)**2) return 1 - (ss_res / ss_total)

R²解读：

范围通常在0到1之间（可能为负）
1表示完美拟合，0表示不优于均值预测
负数表示模型比简单取均值还差

4. 完整LinearRegression类封装

现在我们将上述功能封装成一个类，模仿sklearn的API设计：

class LinearRegression: def __init__(self): self.theta = None def fit(self, X, y): """使用正规方程拟合模型""" X_with_bias = np.hstack([X, np.ones((len(X), 1))]) self.theta = np.linalg.inv(X_with_bias.T.dot(X_with_bias)).dot(X_with_bias.T).dot(y) return self def predict(self, X): """生成预测""" if self.theta is None: raise ValueError("Model not fitted yet. Call fit() first.") X_with_bias = np.hstack([X, np.ones((len(X), 1))]) return X_with_bias.dot(self.theta) def score(self, X, y): """计算R²分数""" y_pred = self.predict(X) return r2_score(y, y_pred)

使用方法示例：

# 生成示例数据 np.random.seed(42) X = 2 * np.random.rand(100, 1) y = 4 + 3 * X + np.random.randn(100, 1) # 创建并训练模型 model = LinearRegression() model.fit(X, y) # 预测和评估 X_new = np.array([[0], [2]]) y_pred = model.predict(X_new) print(f"模型参数: {model.theta}") print(f"R²分数: {model.score(X, y)}")

5. 进阶优化与注意事项

虽然我们的实现已经可用，但在实际应用中还需要考虑以下方面：

5.1 数值稳定性优化

正规方程中的矩阵求逆可能数值不稳定，特别是当特征之间存在高度相关性时。可以添加一个小常数到对角线（岭回归思想）：

# 更稳健的θ计算 identity = np.eye(X_with_bias.shape[1]) self.theta = np.linalg.inv(X_with_bias.T.dot(X_with_bias) + 1e-5 * identity).dot(X_with_bias.T).dot(y)

5.2 大数据集处理

对于非常大的数据集，正规方程可能效率低下，可以考虑：

使用梯度下降替代
分批次计算
使用伪逆而非直接求逆

5.3 特征工程建议

虽然线性回归简单，但特征处理至关重要：

标准化/归一化特征（特别是使用正则化时）
检查多重共线性
考虑添加多项式特征

6. 与scikit-learn对比测试

为了验证我们的实现，可以与sklearn的结果对比：

from sklearn.linear_model import LinearRegression as SKLinearRegression # sklearn实现 sk_model = SKLinearRegression() sk_model.fit(X, y) print(f"我们的θ: {model.theta.flatten()}") print(f"sklearn的θ: {np.append(sk_model.coef_.flatten(), sk_model.intercept_)}")

在正确实现的情况下，两者的参数估计应该非常接近（可能因数值计算精度有微小差异）。