MATLAB多元线性回归regress函数保姆级教程：从数据导入到结果解读，附完整代码-开发者社区

MATLAB多元线性回归regress函数实战指南：从数据清洗到模型优化

第一次接触多元线性回归时，我被那些晦涩的统计学术语和复杂的矩阵运算吓得不轻。直到在实习导师的指导下用MATLAB的regress函数完成了一个销售预测项目，才发现原来核心流程可以如此直观。本文将带你用最接地气的方式，从一份杂乱的实际业务数据开始，一步步完成完整的回归分析闭环。

1. 数据准备与环境配置

在开始建模前，我们需要确保MATLAB环境配置正确。推荐使用R2020b及以上版本，这些版本对统计工具箱做了大量优化。检查是否安装统计工具箱很简单，在命令行窗口输入：

ver('stats')

如果看到统计工具箱的版本信息，说明环境就绪。我习惯在脚本开头统一加载必要工具包：

clc; clear; close all; % 清空工作区 addpath(genpath('./utils')); % 添加自定义工具包路径

数据导入是第一个实战环节。假设我们有一份销售数据sales_data.xlsx，包含产品价格、广告投入、促销力度等特征，以及对应的周销量。用readtable函数导入比传统xlsread更智能：

raw_data = readtable('sales_data.xlsx', 'TextType', 'string');

常见的数据问题包括：

缺失值（显示为NaN）
异常离群点
文本型分类变量
量纲不统一的特征

处理缺失值时，我通常先用热图快速定位：

h = heatmap(ismissing(raw_data)); h.Title = '缺失值分布热图';

对于少量缺失，可以用均值或中位数填充；大量缺失则考虑删除该特征或样本。这里用移动中位数处理价格字段的缺失：

raw_data.Price = fillmissing(raw_data.Price, 'movmedian', 5);

2. 数据预处理与特征工程

原始数据很少能直接用于建模。我们需要进行以下关键处理：

2.1 分类变量编码用dummyvar函数将地区等分类变量转为虚拟变量：

region_dummy = dummyvar(categorical(raw_data.Region)); raw_data = [raw_data array2table(region_dummy(:,2:end),... 'VariableNames', {'Region_East','Region_South'})];

2.2 特征标准化消除量纲影响非常重要，特别是当广告投入（万元）和价格（元）单位不一时：

predictors = {'Price','Ad_Spend','Promotion','Region_East','Region_South'}; X = raw_data{:, predictors}; X(:,1:3) = zscore(X(:,1:3)); % 前三列连续变量标准化 y = raw_data.Sales;

2.3 相关性分析通过corrplot快速发现高相关特征：

figure corrplot([X y], 'type', 'Pearson')

我曾在一个项目中因为忽略这点，导致模型出现严重多重共线性。下表展示了一个典型的相关矩阵：

特征	价格	广告投入	促销力度	销量
价格	1.00	-0.12	-0.08	-0.63
广告投入	-0.12	1.00	0.15	0.72
促销力度	-0.08	0.15	1.00	0.31
销量	-0.63	0.72	0.31	1.00

3. regress函数核心应用

准备好干净的X和y后，建模只需一行代码：

[b, bint, r, rint, stats] = regress(y, [ones(size(X,1),1) X]);

但魔鬼在细节中。参数解读需要特别注意：

b：系数向量，第一个元素是截距项
bint：系数95%置信区间
stats：包含R²、F统计量、p值等重要指标

用disp函数美化输出：

var_names = ['Intercept' predictors]; fprintf('%-15s%-12s%-12s%-12s\n', 'Variable', 'Coef', 'Lower', 'Upper'); for i = 1:length(b) fprintf('%-15s%-12.4f%-12.4f%-12.4f\n',... var_names{i}, b(i), bint(i,1), bint(i,2)); end fprintf('\nR-squared: %.3f, F-stat: %.1f, p-value: %.4f\n',... stats(1), stats(2), stats(3));

典型输出示例：

Variable Coef Lower Upper Intercept 154.2356 148.7621 159.7091 Price -12.4589 -14.2156 -10.7022 Ad_Spend 8.7742 7.0123 10.5361 Promotion 5.1128 3.8542 6.3714 Region_East 3.4512 1.2245 5.6779 Region_South 1.8927 -0.4582 4.2436 R-squared: 0.824, F-stat: 156.7, p-value: 0.0000

4. 模型诊断与优化

得到结果不等于分析结束。好的建模者会深入诊断模型质量：

4.1 残差分析绘制残差图是检查模型假设的有效方法：

figure scatter(y, r, 'filled') hold on plot(xlim, [0 0], 'k--') xlabel('实际值'); ylabel('残差'); title('残差诊断图');

健康的残差应该随机分布在0附近，无明显模式。若出现漏斗形，可能需考虑加权最小二乘法。

4.2 离群点检测用学生化残差识别异常点：

student_res = r ./ sqrt(1 - leverage(X)); outliers = find(abs(student_res) > 2);

4.3 模型改进根据诊断结果，可能需要：

添加交互项（如价格×广告）
尝试非线性变换（如对数转换）
使用逐步回归筛选特征

逐步回归实现示例：

stepwise_model = stepwiselm([X y], 'linear', 'Criterion', 'aic');

下表对比了原始模型和改进模型的性能：

指标	初始模型	加入交互项	逐步回归
R²	0.824	0.851	0.843
调整R²	0.815	0.839	0.837
AIC	1024.7	1008.2	1012.5
显著特征数量	5	7	4

5. 结果可视化与报告输出

最后阶段需要将分析结果有效传达给非技术人员：

5.1 效应可视化用系数条形图直观展示各因素影响：

figure bar(b(2:end)) set(gca, 'XTickLabel', predictors, 'XTickLabelRotation', 45) ylabel('系数大小'); title('各因素对销量的影响');

5.2 预测对比绘制实际值 vs 预测值散点图：

y_pred = [ones(size(X,1),1) X] * b; figure plot(y, y_pred, 'o') hold on plot([min(y) max(y)], [min(y) max(y)], 'r--') xlabel('实际销量'); ylabel('预测销量');

5.3 自动报告生成利用MATLAB Report Generator可以创建专业PDF报告：

import mlreportgen.report.* rpt = Report('回归分析报告', 'pdf'); add(rpt, Heading(1, '销售预测回归分析')); add(rpt, Image(which('residual_plot.png'))); close(rpt);

实际项目中，我发现将关键结果整理成如下表格最受业务方欢迎：

影响因素	每提升1单位	对销量的影响	置信区间	建议行动
广告投入	1万元	+8.77件	[7.01, 10.54]	加大数字广告投放
价格	1元	-12.46件	[-14.22, -10.70]	避免频繁调价
促销活动	1级强度	+5.11件	[3.85, 6.37]	节假日重点促销