YOLOv8输入输出格式解析：开发者必读教程-开发者社区

YOLOv8输入输出格式解析：开发者必读教程

1. 为什么必须搞懂YOLOv8的输入输出格式？

你是不是也遇到过这些情况：

图片传进模型后一片空白，连最显眼的汽车都检测不出来？
想把检测结果用在自己的系统里，却卡在“输出是字典还是列表”这种基础问题上？
WebUI里看着效果很好，但写代码调用API时返回一堆嵌套结构，根本不知道哪个字段对应框坐标、哪个是置信度？

别急——这不是你代码写错了，而是没真正理解YOLOv8的数据契约：它期待什么样的输入，又承诺返回什么样的输出。这就像寄快递前得知道“收件人地址要写几行”，否则再好的物流系统也送不到。

本文不讲训练、不谈原理、不堆参数，只聚焦一个工程师每天都要打交道的核心问题：YOLOv8到底认什么格式的图？返回什么结构的数据？怎么快速提取你要的坐标、类别、数量？
所有内容基于Ultralytics官方v8.2+版本实测，适配你正在用的「鹰眼目标检测 - YOLOv8 工业级版」镜像，CPU轻量部署环境完全验证通过。

2. 输入格式：三类方式，一种都不能错

YOLOv8支持多种输入方式，但工业场景下真正稳定、可控、可批量处理的只有三种。我们按推荐顺序逐一拆解。

2.1 图片文件（最常用，新手首选）

这是WebUI背后实际调用的方式，也是你上传街景、办公室照片时系统真正接收的格式。

接受类型：.jpg、.jpeg、.png（注意：不支持.webp、.bmp等冷门格式）
尺寸要求：无硬性上限，但建议控制在1280×720以内。过大图片会自动缩放，但可能影响小目标识别精度
色彩空间：RGB（不是BGR！这点和OpenCV默认不同，容易踩坑）
❌常见错误：
- 把base64字符串直接当文件路径传（会报File not found）
- 用PIL.Image.open()打开后直接传对象（YOLOv8不接受PIL对象，必须是路径或numpy数组）

正确示例（Python）：

from ultralytics import YOLO model = YOLO("yolov8n.pt") # 加载Nano轻量模型 results = model("office_scene.jpg") # 直接传文件路径，一行搞定

2.2 numpy数组（适合集成到现有图像流水线）

当你已有摄像头流、视频帧或处理后的图像数组时，这是最高效的方式。

数据类型：np.ndarray，形状为(H, W, 3)
数值范围：uint8，值域0–255（不是归一化的0.0–1.0）
通道顺序：RGB（再次强调！如果你用OpenCV读图，默认是BGR，必须转换）

关键转换代码（避坑必备）：

import cv2 import numpy as np # OpenCV读图 → BGR格式 img_bgr = cv2.imread("street.jpg") # 必须转成RGB，否则检测结果错乱 img_rgb = cv2.cvtColor(img_bgr, cv2.COLOR_BGR2RGB) # 现在可以安全传入YOLOv8 results = model(img_rgb)

2.3 URL链接（适合远程资源，慎用于生产）

仅限调试或临时测试，不推荐在工业系统中使用——网络延迟、超时、证书问题都会导致推理失败。

支持协议：http://和https://
要求：公开可访问、无需登录、响应头含Content-Type: image/*
❌典型失败场景：
- 内网图片地址（如http://192.168.1.100/photo.jpg）
- 带参数的动态URL（如?t=1715234567）
- 需要Cookie或Token鉴权的接口

简单测试可用：

results = model("https://ultralytics.com/images/bus.jpg") # 官方示例图

** 开发者提醒**：
在「鹰眼目标检测」镜像中，WebUI上传功能底层调用的就是方式1（文件路径）；而如果你通过HTTP API（如/predict端点）提交数据，后端会自动将base64解码为numpy数组，走的是方式2。理解这两条通路，你就掌握了整个输入链路。

3. 输出结构：从results对象到可落地的数据

YOLOv8的输出不是简单的列表或字典，而是一个高度封装的Results对象。直接print它只会看到一串内存地址——这正是多数人卡住的第一步。

3.1 Results对象全景图

一次推理返回的是list[Results]（即使只传一张图，也是长度为1的列表）。每个Results对象包含5个核心属性：

属性名	类型	说明	是否常用
`boxes`	`Boxes`对象	检测框信息（坐标、置信度、类别ID）	必用
`orig_img`	`np.ndarray`	原始输入图像（未缩放）	画框时需用
`orig_shape`	`tuple`	`(H, W)`，原始图像尺寸	计算真实坐标必需
`names`	`dict`	`{0: 'person', 1: 'car', ...}`类别映射表	解析类别名必需
`path`	`str`	输入文件路径（若为URL则为空）	调试用

快速查看结构（调试必备）：

results = model("office_scene.jpg") r = results[0] # 取第一张图的结果 print("原始图尺寸:", r.orig_shape) # (480, 640) print("类别映射:", r.names) # {0: 'person', 1: 'bicycle', ...} print("检测框数量:", len(r.boxes)) # 7（检测到7个物体）

3.2 boxes：所有业务逻辑的起点

r.boxes是真正承载检测结果的对象。它不是普通数组，但可以像numpy一样索引和切片：

boxes = r.boxes print("boxes数据类型:", type(boxes)) # <class 'ultralytics.engine.results.Boxes'> # 转成标准numpy数组（这才是你熟悉的格式） xyxyn = boxes.xyxy.cpu().numpy() # 归一化坐标 [x1,y1,x2,y2]，值域0-1 xyxy = boxes.xyxy.cpu().numpy() # 原图坐标 [x1,y1,x2,y2]，单位像素 conf = boxes.conf.cpu().numpy() # 置信度数组 cls = boxes.cls.cpu().numpy() # 类别ID数组（整数）

** 关键区别：**

xyxy：绝对坐标，单位像素，直接用于在原图上画框（cv2.rectangle）
xyxyn：归一化坐标，值域0–1，用于保存为YOLO格式标注文件（.txt）

提取单个目标的完整信息（实用模板）：

for i in range(len(boxes)): x1, y1, x2, y2 = xyxy[i] # 左上+右下坐标 confidence = conf[i] # 置信度（0.0–1.0） class_id = int(cls[i]) # 类别ID（0, 1, 2...） class_name = r.names[class_id] # 类别名称（'person', 'car'...） print(f"第{i+1}个目标: {class_name} ({confidence:.2f}) @ [{x1:.0f},{y1:.0f},{x2:.0f},{y2:.0f}]")

输出示例：

第1个目标: person (0.92) @ [124,89,187,321] 第2个目标: car (0.87) @ [321,210,567,389]

3.3 统计看板数据：如何生成WebUI里的“ 统计报告”

WebUI底部显示的car 3, person 5不是前端猜的，而是从boxes.cls实时统计而来。实现只需3行：

from collections import Counter # 统计每个类别出现次数 class_counts = Counter(cls.astype(int)) # 转成WebUI风格字符串 report = " 统计报告: " + ", ".join([f"{r.names[k]} {v}" for k, v in class_counts.items()]) print(report) # 统计报告: person 5, car 3, chair 2

工业级增强（过滤低置信度）：

# 只统计置信度>0.5的目标 high_conf_idx = conf > 0.5 filtered_cls = cls[high_conf_idx].astype(int) class_counts = Counter(filtered_cls)

4. 实战：从WebUI到你的系统——三步对接指南

你不需要重写整个检测逻辑。利用「鹰眼目标检测」镜像已有的能力，只需三步就能把结果接入自有系统。

4.1 步骤1：获取WebUI的HTTP API端点

镜像启动后，点击平台HTTP按钮，你会看到类似这样的地址：
http://127.0.0.1:8000/或https://your-deploy-id.csdn.ai/

这个页面就是WebUI。它的后端API全部开放，文档就在页面右上角的「API Docs」按钮里（Swagger UI）。

4.2 步骤2：调用/predict接口（POST）

这是最常用的接口，接收图片并返回JSON结果。

请求示例（curl）：

curl -X POST "http://127.0.0.1:8000/predict" \ -F "image=@office_scene.jpg" \ -F "conf=0.25" \ -F "iou=0.7"

返回JSON结构（精简版）：

{ "success": true, "data": { "boxes": [ {"class_id": 0, "class_name": "person", "confidence": 0.92, "bbox": [124,89,187,321]}, {"class_id": 2, "class_name": "car", "confidence": 0.87, "bbox": [321,210,567,389]} ], "stats": {"person": 5, "car": 3}, "image_url": "/output/20240510_142311_result.jpg" } }

重点字段说明：

boxes: 每个目标的结构化数据，含坐标、类别、置信度
stats: 直接可用的数量统计，和WebUI底部完全一致
image_url: 处理后的带框图片地址（可直接嵌入网页）

4.3 步骤3：在你的代码中解析JSON（Python示例）

import requests url = "http://127.0.0.1:8000/predict" with open("office_scene.jpg", "rb") as f: files = {"image": f} data = {"conf": "0.25"} # 置信度阈值 response = requests.post(url, files=files, data=data) if response.status_code == 200: result = response.json() if result["success"]: boxes = result["data"]["boxes"] stats = result["data"]["stats"] print("检测到的目标：") for box in boxes: print(f"- {box['class_name']} (置信度{box['confidence']:.2f}) @ {box['bbox']}") print("\n统计报告：", ", ".join([f"{k} {v}" for k, v in stats.items()]))

5. 常见问题速查表（开发现场救命指南）

问题现象	根本原因	一句话解决
检测框位置严重偏移	输入图是BGR格式，但YOLOv8按RGB处理	用`cv2.cvtColor(img, cv2.COLOR_BGR2RGB)`转换
返回空列表`[]`	图片太大（>4000px边长），被自动跳过	缩放到`1280×720`以内再传
类别ID是小数（如`0.0`）	`boxes.cls`是float32，需转int	`int(box['class_id'])`或`cls.astype(int)`
WebUI显示正常，API返回空	API请求没带`image=`字段，或文件名含中文	检查curl命令中`-F "image=@xxx.jpg"`是否完整
统计数量和WebUI不一致	WebUI默认`conf=0.25`，你API没传`conf`参数	显式添加`-F "conf=0.25"`保持一致