智能科学与技术机器视觉毕业设计:新手入门实战指南与避坑清单
一、先吐槽:为什么毕设总卡在 30% 就动不了?
做机器视觉毕设,实验室里最常听到的三句话:
“老师,我环境又崩了。”
“Git 是啥?我代码在 U 盘里。”
“跑通一次就改不动,越调越乱。”
总结下来,新手最容易踩的坑无非这三类:
- 依赖混乱:OpenCV 装了个最新版,结果 PyTorch 的 CUDA 驱动跟不上,一跑就 Segmentation fault。
- 无版本控制:今天改一点,明天回退一点,文件名从
gesture_v1.py一路写到gesture_final_really_final.py,最后连自己都分不清哪个能跑。 - 忽略输入边界:摄像头没图像、路径含中文、分辨率不是 640×480,程序直接崩溃,却忘了写异常捕获。
这些“非算法”问题,往往比调参更浪费时间。下面给出一条“能跑起来再说”的实战路线,先把流程打通,再谈创新点。
二、技术选型:轻量级优先,别一上来就 Transformer
| 方案 | 优点 | 缺点 | 毕设场景建议 |
|---|---|---|---|
| OpenCV | C++ 底层,Python 接口成熟,文档多 | 手写算法多,开发慢 | 图像预处理、传统特征提取 |
| MediaPipe | 现成手掌/人脸关键点,一行代码出结果 | 黑盒,自定义模型难 | 快速原型、演示环节 |
| YOLOv5 | 社区活跃,mAP 高,导出 ONNX 方便 | 权重 7-14 MB,CPU 延迟 200 ms+ | 精度优先,GPU 可用 |
| MobileNet-SSD | 1.3-2.8 MB,CPU 延迟 50 ms,量化后 30 ms | 精度略低,小目标容易漏检 | 资源受限、树莓派部署 |
经验:如果答辩现场只给用笔记本摄像头,选 MobileNet-SSD + OpenCV 就能 30 分钟搭出 demo,老师先看“能动”,再听你讲“为什么能动”。
三、核心实战:实时手势识别端到端
下面以“剪刀石头布”三分类为例,手把手走一遍“数据采集 → 训练 → 摄像头推理”。
1. 数据采集:别一上来就 10 万张
- 打开笔记本摄像头,写个脚本,每按一次空格存一张,每人 300 张,三个手势共 900 张即可。
- 分辨率统一 320×320,后期用
letterbox缩放到模型输入 224×224,减少失真。 - 目录结构按
data/gesture/{paper,rock,scissors}存放,后面直接喂给ImageFolder。
2. 数据增强:用 Albumentations 一行搞定
transform = A.Compose([ A.ShiftScaleRotate(shift_limit=0.1, scale_limit=0.2, rotate_limit=15, p=0.7), A.RandomBrightnessContrast(p=0.5), A.HorizontalFlip(p=0.5), A.Resize(224, 224), A.Normalize(), ToTensorV2() ])经验:别在验证集做翻转,防止“左右手”标签互换,答辩被怼。
3. 模型微调:MobileNetV2 最后一层替换
import torchvision.models as models model = models.mobilenet_v2(pretrained=True) model.classifier[1] = nn.Linear(model.last_channel, 3)- 冻结前面 10 层,只训 classifier,10 分钟收敛。
- 学习率 0.001,Adam + CosineAnnealing, batch=32,笔记本 1650 也能跑。
4. 训练脚本(核心 40 行)
见附录train.py,支持:
- 自动划分 8:2 训练/验证
- 每 epoch 存
best.pth - 控制台打印 F1、Recall,方便写论文表格。
5. 摄像头实时推理:三步搞定
- 打开摄像头
- 手掌检测(MediaPipe 手掌模型)
- 分类模型推理
# 伪代码 while True: frame = cap.read() hand = detect_hand(frame) # 返回 ROI if hand is None: continue pred = model(hand) # 3 类概率 label = ['paper', 'rock', 'scissors'][pred.argmax()] cv2.putText(frame, label, (50, 50), ...)注意:MediaPipe 的 detect_hand 返回的是相对坐标,记得乘回原始宽高,否则 ROI 会裁错。
四、代码结构:PEP8 + 模块化,老师一看就舒服
project/ ├── data/ # 原始图片 ├── models/ # 存放 pth、onnx ├── src/ │ ├── dataset.py # 只干数据读取 │ ├── model.py # 只干模型定义 │ ├── train.py # 只干训练循环 │ └── infer.py # 只干摄像头推理 ├── logs/ # TensorBoard + txt └── README.md # 运行步骤,一行命令函数职责单一示例:
# src/utils.py def letterbox(im, new_shape=(224, 224)): """保持纵横比缩放,边缘灰条填充""" ... return resized, ratio, (dw, dh)五、性能与安全:让 demo 在答辩现场不翻车
| 指标 | 目标值 | 实测(i5-8250U) | 优化手段 |
|---|---|---|---|
| 推理延迟 | < 100 ms | 55 ms | ONNX + CPU 线程数 4 |
| 内存占用 | < 500 MB | 380 MB | 图片队列长度 3,及时 del |
| 摄像头权限 | 现场笔记本 | 弹出授权窗 | 提前测试,用管理员运行一次 |
经验:带个绿色补光灯,防止现场背光导致手黑成剪影,模型直接“瞎猜”。
六、生产环境避坑:从“能跑”到“能交付”
- 模型导出:
torch.onnx.export(..., opset_version=11),兼容 Win10 的 ONNXRuntime 1.10+。 - 日志记录:
用 Pythonlogging模块,同时输出文件与控制台,方便老师现场复现错误。 - 异常捕获:
摄像头断开、路径含中文、模型加载失败,全部 try-except,弹出 Tkinter 提示框,别直接 traceback。 - 一键安装:
写requirements.txt固定 版本 +setup.sh脚本,换电脑 5 分钟搭完环境。 - 备份策略:
代码 push 到私有 Git 仓库,权重放云盘,防止答辩前夜 U 盘掉厕所。
七、可扩展方向:把“剪刀石头布”玩出花
- 语音反馈:识别结果用 pyttsx3 播报“你出布,我出锤,你输了”。
- Web 部署:Flask + WebSocket,前端 Canvas 画图,老师手机扫码就能玩。
- 增加难度:加入“蜥蜴斯波克”五分类,论文里写“类别不平衡处理”,字数+1000。
- 边缘计算:把 ONNX 模型放树莓派 4,加散热片,实现离电续航 2 小时,拍照当封面。
八、结语:先让项目跑起来,再谈星辰大海
毕业设计不是发顶会,先把流程走通、代码写稳、演示不翻车,就已经赢过 80% 的同学。本文给的模板,去年学长用它在 3 周内完成初稿,查重 8%,答辩 92 分。你完全可以照抄再改,更可以在此基础上玩出更多花样。摄像头已经打开,下一步,轮到你了。