news 2026/7/1 13:44:17

YOLACT Real-time Instance Segmentation

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
YOLACT Real-time Instance Segmentation

1.总结

先看的YOLOV8的分割原理,在YOLOV8里面第一次了解到了prototypes maks,原型掩码,当时不是非常的明白,这两天看到YOLACT论文,突然明白yolov8 的 prototypes maks 思想,是来自这里。具体yolov8分割流程,可以移步我的另一篇文章:yolov8m-seg详细的网络结构以及内部实现细节(绝对干货)
YOLACT分割的核心内容就是,把实例分割的任务分成了两个并行的任务:

  1. 生成了一个prototypes maks 原型掩码集合;
  2. 使用模型去预测每个实例的mask coefficients,即掩码系数;
  3. 将mask coefficients 和prototypes maks进行线性组合,注意,得到的是全图的mask,全图的,不是单个实例的,这样,然后通过预测的位置位置框,将其crop出来

要想理解YOLACT论文中提出的新的实例mask预测方法,我觉得有必要了解下,以前是怎么做实例分割的,例如二阶的Fast RCNN做实例分割,高度依赖位置特征,这些方法将位置特征重新池化到目标框区域内,通过ROIpool/align,然后将特征喂给mask 估计器,这种方法是顺序的,很难加速。

在进一步了解YOLOACT具体是怎么操作prototypes maks的,根据yolov8的学习经验,这里有几个问题,想先提出来:

  1. yolov8中网络模型学习出来的prototypes maks是32x96x160,整个数据集中的目标实例,都在这个32x96x160上学习自己的系数,不分类别,这种共性的属性,适合所有的类别么?

接下来,可以深入了解下YOLOACT的具体思想了

2.YOLOACT 网络框架


其实前面的总结已经说了很清楚了,那么要实现,就需要增加这两步:

  1. 使用P3层特征,从P5上采样到P4再上采样到P3,然后经过Protonet,获得prototype maks;
  2. 之前的yolo系统,头部分分支用来预测每个anchor框的位置和类别,YOLOACT在此基础上增加了一个分支,用来预测每个anchor框的mask系数,mask系数和第一步的prototype maks线性组合,就是全图的的mask,目标框内的mask,才是该目标的预测的mask。

3.prototype


上图是protonet,会生成k个prototype,论文中说,这个操作和语义分割和相似,仔细想想FCN,确实是,都是从backbone中直接拿特征,然后做卷积,上采样,卷积,再上采样,但是,YOLOACT和语义分割的不同点在于,语义分割是直接对卷积出来的特征直接计算损失函数,而YOLOACT对组装后的最终掩码计算损失。

Mask Coefficients


熟悉yolo框架的,对上图的结构应该很了解,这里就不详细展开说了。

Mask Assembly

实例的mask,是maks 系数的分支,得到的系数,就是prototype的线性组合,我这里再详细展开说下,在yolov8中,prototype mask 是32x96x160,可以理解为生成了32个96x160的原型掩码,后面会分析,每个原型掩码都是不一样的,然后在头部分支上,生成的Mask Coefficients大小为32x5040,5040是anchor框的个数,也就是,每个框,我生成了32个的maks 系数,这32个系数是对32个原型掩码进行线性组合使用的,即32x32x960x160,得到的每个框的maks是960x160,是整个原图的,再通过预测框进行crop,就得到了该实例的mask。

Losses

本论文使用三个损失函数,分别是分类损失、位置损失、mask损失,这三个损失的权重是1,1.5,6.125,分类损失和位置损失,和yolo类似,maks损失,使用像素级别的,二元交叉损失函数。

YOLOACT在论文中也提到了,YOLOACT学习的是一种分布式特征,在这种特征空间中,每个实例通过类别间共享的prototypes原型进行分割,例如yolov8中的原型是32x96x160,

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/1 11:19:43

深夜的“闪电侠”:在线监测如何让电网故障秒级“自愈”

深夜,雷雨交加。一道闪电划过,小区突然陷入黑暗。然而就在你刚摸到手机,准备发朋友圈吐槽时,灯光瞬间恢复了。前后不过几秒钟,快得让人以为是错觉。这不是电网魔法,而是现代电力系统的“智慧大脑”——在线…

作者头像 李华
网站建设 2026/7/1 11:19:45

选延时摄影白云大海素材库?5个免费站+3个坑别踩!

根据《2025中国数字创意产业发展报告》显示,2025年国内延时摄影素材的需求同比增长了35%,其中白云大海类自然景观素材的下载量占比达22%,成为短视频、广告制作中的热门选择。但很多创作者在寻找**延时摄影白云大海视频素材库**时,…

作者头像 李华
网站建设 2026/7/1 11:19:45

基因组+单细胞--弥漫性大B细胞淋巴瘤的生物学变异轴向

作者,Evil Genius分享文章之前,大家对基因组 单细胞的联合分析思路有了解了么?单细胞分析的CNV可以和WES的CNV分析相互对应么?比较维度WES-CNV (基于Bulk WES)scCNV (基于scRNA-seq,如inferCNV分析)互补与验证关系检测…

作者头像 李华
网站建设 2026/7/1 16:37:25

火山云豆包:重新定义AI交互,让智能触手可及

火山云豆包:重新定义AI交互,让智能触手可及在人工智能技术日新月异的今天,火山云豆包模型以其卓越的性能和人性化的交互体验,正逐渐成为用户心中智能助手的新标杆。这款由火山引擎自主研发的AI模型,凭借强大的自然语言…

作者头像 李华
网站建设 2026/7/1 11:20:33

小白程序员也能掌握的AI黑科技:本体驱动的零噪声GraphRAG,让知识图谱自我进化,告别“裸奔“数据垃圾场!

今天分享一个不错的开源项目trustgraph:AI 上下文图谱工厂,构建、管理并部署专为 AI 优化的上下文图谱 但是重点要分享的是其中关于本体驱动的零噪声GraphRAG部分 为什么要用本体Ontology尼,原因在于:构建一张会自我完善的知识图…

作者头像 李华