001 PyTorch实战：手写数字识别（MNIST）从零开始-开发者社区

目标

理解MNIST手写数字数据集的结构和特点
使用PyTorch构建一个简单的全连接神经网络
掌握数据加载、模型训练、评估和保存的完整流程
使用训练好的模型进行预测并可视化结果

知识铺垫

2.1 MNIST数据集简介

MNIST是一个经典的手写数字识别数据集，包含：

训练集：60,000张28×28像素的灰度图片
测试集：10,000张28×28像素的灰度图片
标签：每张图片对应0-9中的一个数字

2.2 神经网络基本结构

我们将构建一个全连接神经网络（Fully Connected Neural Network）：

输入层(784) → 隐藏层1(64) → 隐藏层2(64) → 隐藏层3(64) → 输出层(10)

输入层：28×28=784个神经元（将图片展平）
隐藏层：3层，每层64个神经元
输出层：10个神经元（对应0-9这10个数字）

2.3 核心概念回顾

激活函数：ReLU（Rectified Linear Unit），增加非线性
损失函数：负对数似然损失（NLLLoss）
优化器：Adam，自适应学习率优化算法

代码实践

环境说明

Python 3.8+
PyTorch 2.0+
torchvision（用于加载MNIST数据集）
matplotlib（用于可视化）

安装命令：

pipinstalltorch torchvision matplotlib

3.1 完整代码结构

我们先看一下整个项目的结构，然后分块详细讲解：

# 导入必要的库importtorchfromtorch.utils.dataimportDataLoaderfromtorchvisionimporttransformsfromtorchvision.datasetsimportMNISTimportmatplotlib.pyplotasplt

逐行解释：

import torch：导入PyTorch核心库
from torch.utils.data import DataLoader：数据加载器，用于批量加载数据
from torchvision import transforms：数据预处理工具
from torchvision.datasets import MNIST：MNIST数据集
import matplotlib.pyplot as plt：绘图库，用于可视化

3.2 神经网络模型定义

# 神经网络模型定义classNet(torch.nn.Module):def__init__(self):super().__init__()# 定义四个全连接层self.fc1=torch.nn.Linear(28*28,64)# 输入层→隐藏层1self.fc2=torch.nn.Linear(64,64)# 隐藏层1→隐藏层2self.fc3=torch.nn.Linear(64,64)# 隐藏层2→隐藏层3self.fc4=torch.nn.Linear(64,10)# 隐藏层3→输出层defforward(self,x):# 前向传播过程x=torch.nn.functional.relu(self.fc1(x))# 第一层 + ReLU激活x=torch.nn.functional.relu(self.fc2(x))# 第二层 + ReLU激活x=torch.nn.functional.relu(self.fc3(x))# 第三层 + ReLU激活x=torch.nn.functional.log_softmax(self.fc4(x),dim=1)# 输出层 + log_softmaxreturnx

原理拆解：

torch.nn.Module：
- 所有神经网络模型的基类
- 必须继承这个类来定义自己的网络
init()方法：
- 初始化网络层
- torch.nn.Linear(in_features, out_features)：定义全连接层
- 参数说明：28×28=784（输入尺寸），64（隐藏层神经元数），10（输出类别数）
forward()方法：
- 定义前向传播过程
- torch.nn.functional.relu()：ReLU激活函数
- torch.nn.functional.log_softmax()：log_softmax函数，用于多分类问题
- dim=1：在第一个维度（每行的10个输出）上计算softmax

💡为什么使用log_softmax？
数值稳定性更好
与NLLLoss（负对数似然损失）配合使用，计算交叉熵损失更高效

3.3 数据加载函数

# 数据加载函数defget_data_loader(is_train):# 定义数据预处理：将PIL图像转换为Tensorto_tensor=transforms.Compose([transforms.ToTensor()])# 加载MNIST数据集data_set=MNIST("",# 数据集保存路径（空表示当前目录）is_train,# True=训练集，False=测试集transform=to_tensor,# 应用预处理download=True# 如果本地没有则下载)# 创建DataLoaderreturnDataLoader(data_set,# 数据集batch_size=15,# 每批15个样本shuffle=True# 打乱数据顺序)

逐行解释：

transforms.Compose：
- 将多个预处理操作组合在一起
- transforms.ToTensor()：将PIL图像或numpy数组转换为PyTorch Tensor，并自动归一化到[0,1]
MNIST类参数：
- 第一个参数：数据保存路径
- is_train：是否为训练集
- transform：数据预处理管道
- download=True：自动下载数据集
DataLoader参数：
- batch_size=15：每批加载15张图片
- shuffle=True：打乱数据顺序，避免模型学习到顺序信息

⚠️注意：训练集需要shuffle，测试集通常不需要，但这里统一设置为True

3.4 评估函数

# 评估函数：计算模型在测试集上的准确率defevaluate(test_data,net):n_correct=0# 正确预测的数量n_total=0# 总样本数量withtorch.no_grad():# 关闭梯度计算，节省内存for(x,y)intest_data:# 遍历测试集# 前向传播outputs=net.forward(x.view(-1,28*28))# 统计正确预测数fori,outputinenumerate(outputs):iftorch.argmax(output)==y[i]:n_correct+=1n_total+=1returnn_correct/n_total# 返回准确率

原理拆解：

torch.no_grad()：
- 上下文管理器，关闭自动梯度计算
- 评估阶段不需要计算梯度，可以节省内存和计算资源
x.view(-1, 28*28)：
- 改变张量形状
- -1表示自动计算该维度大小
- 将[batch_size, 1, 28, 28]变为[batch_size, 784]
torch.argmax(output)：
- 返回output中最大值的索引
- 因为output有10个值，最大值的索引就是预测的数字

3.5 训练函数

# 训练函数defmain():# 加载数据train_data=get_data_loader(is_train=True)test_data=get_data_loader(is_train=False)# 创建模型实例net=Net()# 初始准确率（随机权重）print("初始准确率:",evaluate(test_data,net))# 定义优化器optimizer=torch.optim.Adam(net.parameters(),lr=0.001)# 训练3个epochforepochinrange(3):# 遍历训练集for(x,y)intrain_data:# 梯度清零net.zero_grad()# 前向传播output=net.forward(x.view(-1,28*28))# 计算损失loss=torch.nn.functional.nll_loss(output,y)# 反向传播loss.backward()# 更新权重optimizer.step()# 每个epoch结束后评估print("epoch",epoch,"准确率:",evaluate(test_data,net))# 保存模型参数torch.save(net.state_dict(),'MNIST_model_params.pt')print("模型已保存为 MNIST_model_params.pt")# 可视化前4个测试样本的预测结果for(n,(x,_))inenumerate(test_data):ifn>3:break# 预测predict=torch.argmax(net.forward(x[0].view(-1,28*28)))# 绘制图像plt.figure(n)plt.imshow(x[0].view(28,28),cmap="gray")plt.title("预测结果: "+str(int(predict)))plt.show()plt.close()

训练过程详解：

优化器设置：
```
optimizer=torch.optim.Adam(net.parameters(),lr=0.001)
```
- Adam优化器，自适应调整学习率
- lr=0.001：学习率，控制权重更新的步长
训练循环：
- epoch：整个训练集遍历一次
- batch：每次处理一小批数据（15个样本）
关键步骤：
- net.zero_grad()：梯度清零，防止梯度累积
- loss.backward()：反向传播，计算梯度
- optimizer.step()：更新权重
损失函数：
```
loss=torch.nn.functional.nll_loss(output,y)
```
- NLLLoss（负对数似然损失）
- 与log_softmax输出配合使用

3.6 预测函数

# 预测函数：加载已训练的模型并进行预测defpredict():# 创建模型实例net=Net()# 加载训练好的权重net.load_state_dict(torch.load('MNIST_model_params.pt',weights_only=True))# 加载测试数据test_data=get_data_loader(is_train=False)# 创建3×3的子图显示9个预测结果plt.figure(figsize=(10,8))# 预测前9个测试样本for(n,(x,_))inenumerate(test_data):ifn>8:break# 预测predict=torch.argmax(net.forward(x[0].view(-1,28*28)))# 在子图中显示plt.subplot(3,3,n+1)plt.imshow(x[0].view(28,28),cmap="gray")plt.title("预测: "+str(int(predict)))plt.axis('off')# 关闭坐标轴plt.tight_layout()plt.show()plt.close()# 运行训练（注释掉，避免重复运行）# main()# 运行预测predict()

运行结果：

常见问题

Q1: 为什么准确率一开始很低？

A: 初始权重是随机的，模型还没有学习到任何规律。随着训练进行，准确率会逐渐提高。

Q2: batch_size设置为多少合适？

A: 通常建议使用2的幂次（如16、32、64）。太小训练不稳定，太大内存可能不够。这里使用15是为了演示。

Q3: 如何选择学习率？

A: 0.001是常用初始值。如果训练不稳定（损失震荡），可以调小；如果收敛太慢，可以适当调大。

Q4: 为什么需要net.zero_grad()？

A: PyTorch会累积梯度。如果不清零，每次backward()的梯度会加到之前的梯度上，导致错误更新。

Q5: 如何保存整个模型（不只是参数）？

A: 使用torch.save(net, 'model.pth')，加载时使用net = torch.load('model.pth')

总结练习

本节核心知识点总结：

数据加载：使用torchvision加载MNIST，DataLoader批量处理
模型定义：继承nn.Module，定义__init__和forward方法
训练流程：前向传播→计算损失→反向传播→更新权重
评估保存：计算准确率，保存模型参数

实操小练习：

修改网络结构：尝试增加或减少隐藏层的数量，观察对准确率的影响

# 尝试修改为：self.fc1=torch.nn.Linear(28*28,128)self.fc2=torch.nn.Linear(128,64)self.fc3=torch.nn.Linear(64,10)

调整超参数：修改学习率和batch_size，观察训练效果

# 尝试：optimizer=torch.optim.Adam(net.parameters(),lr=0.0005)# 或returnDataLoader(data_set,batch_size=32,shuffle=True)

扩展功能：添加验证集，在每个epoch后同时计算训练集和验证集的准确率

001 PyTorch实战：手写数字识别（MNIST）从零开始

目标