没机器学习经验？ResNet18物体识别保姆级入门-开发者社区

没机器学习经验？ResNet18物体识别保姆级入门

引言：为什么选择ResNet18作为你的第一个AI项目？

作为市场营销专员，你可能经常需要分析产品图片、竞品海报或用户生成内容。传统方法需要人工逐一标注，而ResNet18这个"AI视觉小能手"可以帮你自动识别上千种常见物体——从咖啡杯到笔记本电脑，识别准确率超过90%，整个过程就像教小朋友认图识字一样简单。

我完全理解看到论文里那些数学符号的恐惧感。但好消息是：现在你完全不需要理解反向传播或梯度下降，就像开车不需要懂内燃机原理一样。我们将使用预训练好的ResNet18模型，它已经学会了识别1000类常见物体（ImageNet数据集），你只需要10行Python代码就能让它为你工作。

1. 环境准备：5分钟搞定AI实验室

1.1 选择你的"AI工作台"

推荐使用CSDN算力平台的PyTorch镜像（已预装ResNet18所需所有组件），就像选择预装好Photoshop的电脑一样省心：

# 推荐镜像配置 PyTorch 2.0 + CUDA 11.7 Python 3.9 预装torchvision库

1.2 安装必备工具包

如果你的环境没有预装，只需运行：

pip install torch torchvision pillow

这相当于给你的AI工具箱装上三把关键工具： - torch：PyTorch深度学习框架（AI的大脑） - torchvision：包含ResNet18等视觉模型（现成的视觉知识库） - pillow：图像处理工具（AI的眼睛）

2. 快速体验：你的第一个物体识别程序

2.1 基础版识别代码

创建一个detect.py文件，复制以下代码：

from torchvision import models, transforms from PIL import Image # 1. 加载预训练模型（就像下载一个经验丰富的视觉专家） model = models.resnet18(pretrained=True) model.eval() # 设置为评估模式 # 2. 准备图像预处理流程（教AI如何"看"图片） preprocess = transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.236, 0.225]), ]) # 3. 加载测试图片（换成你自己的图片路径） img = Image.open("test.jpg") img_tensor = preprocess(img).unsqueeze(0) # 增加一个批次维度 # 4. 开始识别！ with torch.no_grad(): outputs = model(img_tensor) # 5. 解读结果（显示最可能的3个结果） _, indices = torch.topk(outputs, 3) print("识别结果：") for idx in indices[0]: print(f"- {idx.item()}: 可能是{models.ResNet18_Weights.IMAGENET1K_V1.meta['categories'][idx]}")

2.2 运行你的AI侦探

准备一张测试图片（比如手机拍的咖啡杯）
重命名为test.jpg放在同一目录
运行命令：

python detect.py

你会看到类似这样的输出：

识别结果： - 504：可能是咖啡杯 - 968：可能是茶杯 - 925：可能是马克杯

3. 进阶技巧：让识别更精准

3.1 调整识别阈值

有时候AI会给出多个可能结果，我们可以设置置信度阈值：

probs = torch.nn.functional.softmax(outputs, dim=1) threshold = 0.7 # 只显示置信度>70%的结果 for i, prob in enumerate(probs[0]): if prob > threshold: print(f"{prob*100:.1f}% 可能是 {models.ResNet18_Weights.IMAGENET1K_V1.meta['categories'][i]}")

3.2 处理实时摄像头画面

想让AI实时分析摄像头内容？只需增加OpenCV支持：

import cv2 cap = cv2.VideoCapture(0) # 0表示默认摄像头 while True: ret, frame = cap.read() if not ret: break # 将OpenCV图像转为PIL格式 img = Image.fromarray(cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)) img_tensor = preprocess(img).unsqueeze(0) with torch.no_grad(): outputs = model(img_tensor) # 显示最可能的结果 _, pred = torch.max(outputs, 1) label = models.ResNet18_Weights.IMAGENET1K_V1.meta['categories'][pred[0]] cv2.putText(frame, f"检测到: {label}", (10,30), cv2.FONT_HERSHEY_SIMPLEX, 1, (0,255,0), 2) cv2.imshow('ResNet18实时检测', frame) if cv2.waitKey(1) == ord('q'): break cap.release() cv2.destroyAllWindows()