news 2026/4/15 16:08:02

11.4 计算机视觉任务专用网络:目标检测、语义分割与实例分割

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
11.4 计算机视觉任务专用网络:目标检测、语义分割与实例分割

11.4 计算机视觉任务专用网络:目标检测、语义分割与实例分割

计算机视觉的核心任务旨在赋予机器“看懂”图像的能力,其需求从粗糙到精细,衍生出目标检测、语义分割和实例分割三大关键任务。为高效解决这些任务,研究者设计了各具特色的专用网络架构。本节将系统阐述以R-CNN系列YOLO系列为代表的目标检测网络,以FCNU-Net为代表的语义分割网络,以及作为实例分割基准的Mask R-CNN。这些架构不仅是解决特定任务的工具,其设计思想也深刻反映了计算机视觉从区域识别到像素级理解的演进脉络。

11.4.1 目标检测:从区域提议到端到端回归

目标检测的任务是定位图像中所有感兴趣的目标(用边界框表示)并识别其类别。其技术路线主要分为两阶段(Two-Stage)检测器和单阶段(One-Stage)检测器。

11.4.1.1 R-CNN系列:两阶段检测的演进

两阶段检测器首先生成可能包含目标的候选区域(Region Proposals),再对每个候选区域进行分类和边界框精修。R-CNN系列是这一范式的典型代表。

  1. R-CNN(Regions with CNN features):开创性地将CNN引入目标检测。其流程为:(1) 使用选择性搜索(Selective Search)生成约2000个候选区域;(2) 将每个区域缩放到固定尺寸,送入预训练的CNN(如AlexNet)提取特征;(3) 使用类别特定的线性支持向量机(SVM)进行分类;(4) 使用线性回归模型对边界框进行精修。R-CNN的主要问题是重复计算(每个候选区域独立通过CNN)和训练测试流程复杂

  2. Fast R-CNN:针对R-CNN的改进,引入了RoI(Region of Interest)池化层。网络首先对整个图像进行一次CNN前向传播,得到共享的特征图;然后,将每个候选区域投影到特征图上,通过RoI池化层将不同尺寸的候选区域特征转换为固定尺寸的特征向量;最后,特征向量被送入两个并行的全连接层,分别进行类别分类边界框回归。Fast R-CNN实现了端到端训练,大幅提升了速度和精度。

  3. Faster R-CNN:该架构的核心创新是用区域提议网络(Region Proposal Network, RPN)取代了耗时的选择性搜索。RPN是一个全卷积网络,在共享的特征图上滑动,为每个位置生成多个不同尺度和长宽比的锚框(Anchor Boxes),并输出每个锚框是“目标”的置信度及其初步的边界框偏移量。RPN与Fast R-CNN检测器共享特征图,实现了候选区域生成、分类和回归的完全端到端训练,是两阶段检测器的里程碑。

下表概括了R-CNN系列的核心演进:

模型区域提议方法核心创新主要优势遗留问题
R-CNN选择性搜索CNN特征提取、SVM分类、边界框回归首次展示CNN特征对检测的有效性速度慢、存储开销大、流程多阶段
Fast R-CNN选择性搜索RoI池化层、多任务损失(分类+回归)共享计算、端到端训练、速度显著提升区域提议仍是计算瓶颈
Faster R-CNNRPN(区域提议网络)RPN与检测网络共享特征、锚框机制真正意义上的端到端、精度与速度的平衡整体速度仍不及单阶段检测器
11.4.1.2 YOLO系列:单阶段实时检测的标杆

与两阶段方法不同,单阶段检测器将目标检测视为一个单一的回归问题,直接从图像像素预测边界框和类别概率,以实现极高的检测速度。YOLO(You Only Look Once)是其中最著名的系列。

  1. 核心思想与早期版本:YOLOv1将输入图像划分为S×SS \times SS

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/3 22:24:22

效率革命来临?,Open-AutoGLM如何实现社会级效能跃迁

第一章:效率革命来临?Open-AutoGLM的社会效能跃迁人工智能正从“辅助工具”向“自主代理”演进,Open-AutoGLM 的出现标志着这一跃迁的关键节点。它不仅是一个开源的自动化语言模型框架,更是一种新型生产力引擎,正在重塑…

作者头像 李华
网站建设 2026/4/12 19:17:24

B树入门:5分钟理解这个神奇的数据结构

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 生成一个B树教学演示程序,要求有逐步构建B树的动画演示,支持交互式插入/删除节点。包含通俗易懂的概念解释和分步操作指引,适合完全没有B树基础…

作者头像 李华
网站建设 2026/4/12 17:15:25

Linly-Talker能否接入AR眼镜实现现场指导?

Linly-Talker能否接入AR眼镜实现现场指导? 在电力巡检人员攀爬铁塔时,头戴AR眼镜的他轻声问道:“这个接线盒温度异常,可能是什么原因?”几乎瞬间,一个面容沉稳的虚拟专家形象浮现在视野角落,同步…

作者头像 李华
网站建设 2026/4/12 2:32:47

1小时搭建2025Java面试模拟器:快马平台实战

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 使用快马平台快速开发Java面试模拟器原型,要求:1) 输入技术栈自动生成定制化试卷 2) 语音识别模拟真实问答 3) 代码题自动检测运行结果 4) 实时生成面试评价…

作者头像 李华
网站建设 2026/4/8 7:36:56

Open-AutoGLM隐私保护技术演进(从加密到可信执行环境全揭秘)

第一章:Open-AutoGLM隐私保护技术演进概述Open-AutoGLM作为新一代开源自动推理语言模型,其核心设计理念之一便是对用户数据隐私的深度保护。随着模型在多场景下的广泛应用,隐私泄露风险逐渐成为制约其发展的关键因素。为此,Open-A…

作者头像 李华