别再死记硬背了！用Python+Scikit-learn实战5大经典监督学习算法（附完整代码）-开发者社区

别再死记硬背了！用Python+Scikit-learn实战5大经典监督学习算法（附完整代码）

当你第一次接触机器学习时，是否曾被各种算法的数学公式和理论推导吓退？作为过来人，我完全理解那种面对大量抽象概念时的无力感。但今天，我要带你走一条不一样的学习路径——用代码说话，让算法在实战中展现它们的魅力。

本文将用Python和Scikit-learn库，手把手带你实现五大经典监督学习算法。我们不会陷入数学推导的泥潭，而是通过一个完整的预测项目（从数据加载到模型评估），让你直观感受每种算法的特点和适用场景。无论你是想转行数据科学的开发者，还是希望在实际项目中应用机器学习的研究人员，这种"代码即教程"的方式都能让你快速上手。

1. 环境准备与数据加载

在开始算法实战前，我们需要搭建好Python环境并准备好数据集。这里我推荐使用Anaconda发行版，它已经集成了我们所需的大部分科学计算库。

首先安装必要的库：

pip install numpy pandas matplotlib scikit-learn

我们将使用经典的波士顿房价数据集作为示例。这个数据集包含506条房屋信息，每条记录有13个特征（如犯罪率、房间数等）和1个目标值（房价中位数）。

from sklearn.datasets import load_boston import pandas as pd boston = load_boston() data = pd.DataFrame(boston.data, columns=boston.feature_names) data['PRICE'] = boston.target print(data.head())

数据预处理是机器学习中至关重要的一步。我们需要：

检查缺失值：data.isnull().sum()
分割数据集为训练集和测试集
对特征进行标准化处理（某些算法对数据尺度敏感）

from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler X = data.drop('PRICE', axis=1) y = data['PRICE'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) scaler = StandardScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test)

2. 线性回归：预测连续值的基石

线性回归是最简单也最直观的监督学习算法，特别适合作为机器学习的入门案例。它的核心思想是找到特征与目标值之间的线性关系。

在Scikit-learn中实现线性回归只需要几行代码：

from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error, r2_score lr = LinearRegression() lr.fit(X_train, y_train) y_pred = lr.predict(X_test) print(f"MSE: {mean_squared_error(y_test, y_pred):.2f}") print(f"R2 Score: {r2_score(y_test, y_pred):.2f}")

提示：R2分数越接近1表示模型越好，负数则表示模型比简单取平均值还要差

线性回归的优点：

训练速度快，适合大规模数据集
模型简单，易于理解和解释
对线性关系的数据表现良好

但也要注意它的局限性：

无法自动捕捉特征间的交互作用
对非线性关系的数据表现较差
对异常值敏感

我们可以通过可视化来直观理解模型的预测效果：

import matplotlib.pyplot as plt plt.scatter(y_test, y_pred) plt.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=2) plt.xlabel('真实价格') plt.ylabel('预测价格') plt.title('线性回归预测效果') plt.show()

3. 逻辑回归：分类问题的首选

虽然名字中有"回归"，但逻辑回归实际上是解决分类问题的利器。它通过sigmoid函数将线性回归的输出映射到(0,1)区间，解释为概率值。

为了演示逻辑回归，我们切换到乳腺癌数据集（二分类问题）：

from sklearn.datasets import load_breast_cancer cancer = load_breast_cancer() X = cancer.data y = cancer.target X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

逻辑回归的实现同样简洁：

from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score, confusion_matrix logreg = LogisticRegression(max_iter=1000) logreg.fit(X_train, y_train) y_pred = logreg.predict(X_test) print(f"准确率: {accuracy_score(y_test, y_pred):.2f}") print("混淆矩阵:\n", confusion_matrix(y_test, y_pred))

逻辑回归的重要参数：

C: 正则化强度的倒数，越小表示正则化越强
penalty: 正则化类型（'l1'或'l2'）
solver: 优化算法，如'lbfgs'、'liblinear'等

我们可以通过特征系数来理解模型：

coef_df = pd.DataFrame(logreg.coef_[0], index=cancer.feature_names, columns=['系数']) coef_df.sort_values('系数', ascending=False)

注意：逻辑回归默认有L2正则化，这可以防止过拟合但可能导致系数偏小。如果特征选择很重要，可以尝试L1正则化。

4. 决策树与随机森林：直观且强大

决策树通过一系列if-then规则进行预测，这种白盒模型非常直观易懂。而随机森林通过集成多棵决策树，显著提升了预测性能。

4.1 决策树实现

from sklearn.tree import DecisionTreeClassifier from sklearn import tree dt = DecisionTreeClassifier(max_depth=3, random_state=42) dt.fit(X_train, y_train) y_pred = dt.predict(X_test) print(f"准确率: {accuracy_score(y_test, y_pred):.2f}")

决策树的可视化能帮助我们理解模型：

plt.figure(figsize=(15,10)) tree.plot_tree(dt, feature_names=cancer.feature_names, class_names=cancer.target_names, filled=True) plt.show()

决策树的关键参数：

max_depth: 树的最大深度
min_samples_split: 分裂内部节点所需的最小样本数
criterion: 分裂质量的衡量标准（'gini'或'entropy'）

4.2 随机森林实现

随机森林通过构建多棵决策树并取其平均值（回归）或投票结果（分类）来提升性能：

from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(n_estimators=100, random_state=42) rf.fit(X_train, y_train) y_pred = rf.predict(X_test) print(f"准确率: {accuracy_score(y_test, y_pred):.2f}")

随机森林的优势：

通常比单棵决策树表现更好
能自动处理特征重要性
对异常值和缺失值相对鲁棒

我们可以查看特征重要性：

importances = pd.DataFrame({'feature': cancer.feature_names, 'importance': rf.feature_importances_}) importances.sort_values('importance', ascending=False).head(10)

5. 支持向量机(SVM)：小数据集的王者

SVM通过寻找最大间隔超平面来进行分类，对于特征数量多、样本量适中的数据集表现优异。

from sklearn.svm import SVC svm = SVC(kernel='rbf', C=1.0, gamma='scale') svm.fit(X_train, y_train) y_pred = svm.predict(X_test) print(f"准确率: {accuracy_score(y_test, y_pred):.2f}")

SVM的关键参数：

kernel: 核函数类型（'linear'、'poly'、'rbf'、'sigmoid'）
C: 正则化参数
gamma: 核系数（仅对'rbf'、'poly'、'sigmoid'有效）

提示：SVM对特征缩放敏感，务必确保数据已经标准化。对于大数据集，考虑使用LinearSVC以获得更好的性能。

6. 算法对比与选择指南

现在我们已经实现了五种经典算法，让我们通过表格对比它们的表现：

算法	准确率	训练速度	可解释性	适用场景
线性回归	0.77 (R2)	快	高	连续值预测，线性关系
逻辑回归	0.96	快	高	二分类，概率输出
决策树	0.93	中等	很高	需要模型解释，类别特征多
随机森林	0.96	慢	中等	通用，特征重要性分析
SVM	0.97	慢	低	小数据集，高维特征

选择算法时的考虑因素：

数据规模：大数据集优先选择线性模型或随机森林
特征类型：连续特征适合SVM，类别特征适合树模型
预测目标：回归问题用线性回归/随机森林，分类问题用逻辑回归/SVM
解释需求：需要解释模型时选择线性回归或决策树

在实际项目中，我通常会先尝试随机森林作为基线模型，因为它通常表现不错且需要较少的调参。然后根据具体需求尝试其他算法。记住，没有"最好"的算法，只有最适合特定问题的算法。

别再死记硬背了！用Python+Scikit-learn实战5大经典监督学习算法（附完整代码）