news 2025/12/29 8:06:30

Learning Discriminative Features with Multiple Granularities for Person Re-Identification论文翻译

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Learning Discriminative Features with Multiple Granularities for Person Re-Identification论文翻译

Learning Discriminative Features with Multiple Granularities for Person Re-Identification

多粒度判别特征学习用于行人重识别

摘要

全局特征与局部特征的结合已成为提升行人重识别(Re-ID)判别力的核心手段。以往基于部件的方法主要致力于定位具有特定预定义语义的区域以学习局部表征,这增加了学习难度,且对姿态、遮挡等剧烈变化场景不够鲁棒。本文提出一种端到端的多粒度判别特征学习策略,精心设计了一种多分支深度网络——多粒度网络(MGN)。该网络包含一个全局分支和两个局部分支,不再依赖语义区域定位,而是将图像沿水平方向均匀划分为若干条带,并在不同局部的分支中采用不同数量的条带,从而获得多粒度的局部特征表示。在 Market-1501、DukeMTMC-reID 和 CUHK03 等主流评测数据集上的大量实验表明,本文方法取得了业界领先的性能,显著优于现有最佳方法。例如,在 Market-1501 单查询模式下,本文方法达到 Rank-1/mAP = 96.6%/94.2% 的最新纪录。

1 引言

行人重识别(Person Re-ID)旨在跨监控摄像头检索特定行人,由于监控场景复杂,其难点主要体现在姿态、遮挡、服饰、背景杂乱及检测误差等方面的大幅变化。近年来,深度卷积网络的蓬勃发展为行人图像提供了更具判别力和鲁棒性的表征,将 Re-ID 性能推向了前所未有的高度。仅最近数月,多项深度 Re-ID 方法便取得了突破性的识别率与平均精度。

直观的做法是从行人全身提取判别特征。全局特征学习的目标是捕捉不同行人最显著的信息(如衣服颜色),以表征行人身份。然而,监控场景图像的复杂性往往限制了大规模 Re-ID 的精度。受限于 Re-ID 训练数据集的规模与多样性,一些非显著或低频的细节信息在全局特征学习过程中易被忽略,导致在跨身份共性大、类内差异大的条件下全局特征难以适应。

为缓解这一困境,许多研究通过定位显著身体部件来引入局部信息,从而提升 Re-ID 精度。每个部件仅包含全身的一小部分信息,同时屏蔽了区域外的干扰,使局部特征更专注于身份判别,并可作为全局特征的重要补充。现有部件方法大致分为三类:1)利用人体先验或姿态估计定位结构部件;2)利用区域提议生成候选部件;3)通过注意力机制增强显著部件。然而,姿态或遮挡会降低部件可靠性;这些方法通常仅关注固定语义的特定部件,难以覆盖所有判别区域;且多数流程非端到端,增加了学习难度。

本文提出一种融合多粒度全局与局部信息的特征学习策略。如图 1 所示,不同数量的水平条带对应不同粒度:仅含整张图像的“全局分支”粒度最粗;随着条带数量增加,局部特征可聚焦于更细粒度的判别信息。鉴于深度学习可在整图近似关注主体,也有能力在不同条带区域捕捉更集中的显著性。基于此,我们设计了一个多分支网络 MGN:以 ResNet-50 为骨干,在第四个残差段后分出三个独立分支——一个全局分支和两个局部分支。每个局部分支将特征图均匀水平切分为不同数量的条带,并在各条带上独立学习局部特征。与先前部件方法相比,MGN 仅采用等分条带却取得卓越性能,在多个主流 Re-ID 数据集上达到业界最佳,且无需外部数据或重排序,同时保持端到端训练,易于实现。实验表明,多分支结构协同提升了任一单分支的性能。

2 相关工作

深度学习的兴起也推动了行人重识别(Re-ID)系统的发展。[20,39] 率先将深度孪生网络引入 Re-ID,并结合身体部件特征,显著优于同时期的手工特征方法。[45] 提出基于简单 ResNet-50 骨干的 ID 判别嵌入(IDE),成为现代深度 Re-ID 的性能基线。[1,35] 通过精心设计的机制计算图像对的中层特征,以刻画局部部件间的相互关系。[37] 引入“域引导 dropout”,增强模型在不同监控场景下的泛化能力。[8] 融合多通道全局与局部特征,并利用改进的三元组损失学习判别表征。[24,25,38,43,19,22] 在嵌入空间中引入注意力信息,以提升身体局部的判别力。[42,32] 利用人体关键点等结构信息精确定位语义部件区域。

近几个月来,一些深度 Re-ID 方法将性能推向了新的高度。[40] 在训练阶段引入基于部件的对齐匹配,通过最短路径规划与互学习提升度量学习效果。[3,34] 均沿垂直方向将输入图像的特征图等分为若干条带。[3] 利用 LSTM 融合各条带部件特征,并与全局分类度量特征结合;[34] 则直接将局部部件特征拼接为最终表征,并采用精炼部件池化改进部件特征的映射验证。然而,据 [40] 的观点,这些方法仅能达到与人类相当的水平。本文提出的 MGN 方法在仅使用等分条带、无需复杂语义定位的条件下,显著超越上述所有方法,并在多个数据集上刷新业界最佳纪录。

3 多粒度网络(MGN)

3.1 网络结构

图 2 给出了 Multiple Granularity Network 的整体框架。我们以在 Re-ID 任务中表现优异的 ResNet-50 为骨干,最主要改动是将 res_conv4_1 之后的部分拆成三条独立分支,各分支沿用 ResNet-50 的原始结构但参数不共享。

表 1 汇总了三条分支的配置差异。

  • 上分支(Global Branch):在 res_conv5_1 继续使用 stride=2 的降采样,随后做全局最大池化(GMP),再经 1×1 卷积+BN+ReLU 将 2048 维特征zgGz_g^GzgG压缩为 256 维fgGf_g^GfgG。该分支无分块操作,负责学习整图全局表征。
  • 中、下分支(Part-N Branch):res_conv5_1 不做降采样,保持 24×8 特征图分辨率;随后将特征图沿水平方向均匀切分为 N 条带(N=2 或 3),每条带独立进行与 Global Branch 相同的 GMP 和 1×1 降维,得到 N 个 256 维局部特征。因此 Part-2 分支输出 2×256 维,Part-3 分支输出 3×256 维。

测试阶段,我们将所有分支的降维后特征拼接起来,形成同时包含全局与多粒度局部信息的最终 256×(1+2+3)=1536 维表征,以获得最强判别力。

3.2 损失函数

为充分挖掘网络表征的判别能力,我们在训练阶段联合使用分类常用的 softmax loss 和度量学习常用的 triplet loss。

Softmax loss

将 Re-ID 视为多分类任务,对以下特征施加 softmax loss:

  • 降维前的全局特征zgG、zgP2、zgP3z_g^G、z_g^{P2}、z_g^{P3}zgGzgP2zgP3(2048 维)
  • 降维后的局部特征fpiP2、fpiP3f_{p_i}^{P2}、f_{p_i}^{P3}fpiP2fpiP3(256 维)
    公式为标准交叉熵,共 5 个 loss 项。
Triplet loss

对降维后的全局特征fgG、fgP2、fgP3f_g^G、f_g^{P2}、f_g^{P3}fgGfgP2fgP3(均为 256 维)使用改进的 batch-hard triplet loss:
在同一批次内,对每个锚点样本选最远的正样本与最近的负样本构成最难三元组,以加强排序性能。该损失共 3 项。

3.3 讨论

多分支必要性

直观上,单分支网络也能在最后一层特征图按不同粒度切条并加监督。但实验发现这样做性能提升有限。我们推测,若让同一组卷积参数同时响应粗细两种细节,会削弱对细粒度信息的敏感度。将骨干“提前”拆成多条独立分支,可让各分支在第四残差段就开始专注不同粒度,从而互补增强。

粒度多样性

Global Branch 感受野大、降采样多,捕获整体但粗糙的服饰/体型信息;Part-2、Part-3 分支感受野小、无降采样,关注局部但精细的纹理/配件信息。Part 数越多,学到的表征越细。不同分支在共享底层的同时,各自把“注意力”回传给骨干,形成协同增益,这是任一单分支或独立网络集成所不具备的。

4 实验

4.1 实现细节

为保留更多细部信息,我们将输入图像缩放到 384×128 像素。骨干及分支均用 ImageNet 预训练的 ResNet-50 权重初始化;各分支在 res_conv4_1 之后复制对应层的预训练参数。训练阶段仅采用随机水平翻转做数据增强。每个 mini-batch 随机选取 P=16 个身份,每个身份随机取 K=4 张图像,以满足 triplet loss 需求。优化器为 SGD(动量 0.9,权重衰减 5e-4),初始学习率 0.01,在第 40 和 60 epoch 分别降至 1e-3 和 1e-4,共训练 80 epoch。测试时,将原图与水平翻转图像的特征取平均作为最终表征。整套代码基于 PyTorch,在 2 块 NVIDIA TITAN Xp 上完成 Market-1501 训练约需 2 小时。

4.2 数据集与评测协议

实验在三个主流数据集上进行:

  • Market-1501:1 501 人,6 摄像头,训练 12 936 图/751 人,测试 3 368 query + 19 732 gallery。支持单查询(SQ)与多查询(MQ)两种模式。
  • DukeMTMC-reID:1 812 人,8 摄像头,训练 16 522 图/702 人,测试 2 228 query + 17 661 gallery,是目前最具挑战性的 Re-ID 数据集之一。
  • CUHK03:1 467 人,6 摄像头,提供手工框与 DPM 检测框两种标注。本文采用 [49] 提出的简化协议,用 labeled 与 detected 两种设置分别评测。

评测指标为 CMC 曲线 Rank-1/5/10 与 mean Average Precision (mAP)。

4.3 各组件有效性验证

在 Market-1501 SQ 上进行的消融实验见表 2。

  • MGN w/o triplet vs. ResNet-50:Rank-1/mAP 从 87.5%/71.4% 提升到 95.3%/86.2%,净增 7.8%/14.8%,显著超越同量级 ResNet-101(90.4%/78.0%),证明提升主要来自架构设计而非参数量。
  • Triplet loss:在 baseline ResNet-50 上带来 +1.2%/3.6%,在完整 MGN 上仍有 +0.4%/0.7%,且对 mAP 提升更明显,符合度量学习特性。
  • 多分支协同:将 Global、Part-2、Part-3 三个独立网络做集成,性能仍低于统一的多分支 MGN(约 1%–2%),且各子分支单独拿出来也优于对应结构的单网络,表明分支间互补增益显著。

4.4 与当前最优方法对比

表 3–5 分别给出了三个数据集的最新结果。

  • Market-1501:无重排序条件下,MGN Rank-1/mAP 达 95.7%/86.9%,超出此前最佳 PCB+RPP 1.9%/5.3%;加重排序后进一步提升至 96.6%/94.2%,领先幅度更大。
  • DukeMTMC-reID:MGN 取得 88.7%/78.4%,比此前最佳 GP-reid 提高 3.5%/5.6%,再次刷新纪录。
  • CUHK03:在 labeled 与 detected 两种设定下,MGN 分别拿到 68.0%/67.4% 与 66.8%/66.0%,大幅超越已有最好结果,验证了方法对检测框噪声的鲁棒性。

综上,MGN 在不引入外部数据、无需复杂后处理的前提下,在多个主流数据集上均实现了业界最佳性能,并将 Re-ID 的 state-of-the-art 推向了新高度。

5 结论

本文提出了多粒度网络(MGN),一种用于行人重识别的新型多分支深度架构。该网络通过“全局 + 多粒度局部”三个分支,在统一框架内端到端地学习身份判别特征:全局分支捕获整体粗略信息,Part-2 与 Part-3 分支分别捕获中等与精细粒度的局部线索,且无需任何部件定位、姿态估计或区域提议。大量实验表明,MGN 在 Market-1501、DukeMTMC-reID 和 CUHK03 等主流数据集上均大幅超越现有最佳方法,将 Re-ID 的性能边界推向了新的高度。未来,我们将进一步探索更高效的多粒度融合策略,并研究其在视频 Re-ID 与跨域场景下的扩展能力。


笔记

一句话核心
提出“多粒度网络(MGN)”,用端到端、无需语义部件定位的多分支结构一次性学习全局+多粒度局部特征,刷新行人重识别精度。

研究动机
Re-ID 长期受姿态、遮挡、背景等剧烈变化困扰;传统部件法依赖姿态估计或区域提议,鲁棒性差且非端到端。作者希望用极简、可扩展的架构突破性能瓶颈,对安防、智慧城市等大规模检索场景具有直接应用价值。

技术路线

  1. 以 ResNet-50 为共享骨干,在 res4-1 后并行拆出三条独立分支(Global、Part-2、Part-3)。
  2. 局部分支仅做“均匀水平切条+独立 GMP+1×1 降维”,无需任何外部语义或对齐。
  3. 联合 5 项 softmax(分类)+ 3 项 batch-hard triplet(度量)端到端训练;测试时拼接全部 256-d 向量作为最终表征。

关键结果
① Market-1501 单查询 Rank-1/mAP 96.6%/94.2%,领先当时最好方法 1.9%/5.3% 以上。
② 在最具挑战的 DukeMTMC-reID 上达 88.7%/78.4%,同样刷新纪录。
③ 消融显示:多分支协同>独立网络集成;triplet 对 mAP 提升显著;性能增益主要来自架构而非参数量。

主要创新

  • 首次提出“纯均匀切条”实现多粒度局部特征,无需任何部件定位或姿态估计。
  • 多分支共享底层但互不干扰地学习粗细互补信息,端到端即可用。
  • 在三个主流数据集上同时取得 SOTA,证明方法通用且鲁棒。

局限性

  • 仅水平切条,对竖直方向或更复杂空间关系未建模。
  • 输入固定 384×128,对极端长宽比或低分辨率图像未验证。
  • 实验集中在静态图像 Re-ID,跨域、视频序列、遮挡极严重场景未深入。

论证严谨性
消融实验、对比实验、统计显著性(多次平均)均齐全;性能指标、训练细节、源码级可复现描述充分,结论可信。

对你课题的启发

  • 若你的任务涉及细粒度识别、部件变异大,可照搬“均匀切条+多分支”思想,省去复杂部件标注。
  • 多粒度特征拼接即插即用,可与 Transformer、注意力或重排序模块继续叠加。
  • 端到端训练流程可直接迁移到车辆 Re-ID、商品检索等领域。

下一步探索

  1. 将水平切条扩展为二维网格或自适应粒度的可学习划分。
  2. 引入跨域自适应或遮挡模拟,验证在开放场景下的泛化能力。
  3. 把多粒度思想用于视频 Re-ID(时序条带)或 3D 姿态辅助的精细对齐。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/16 17:53:57

kotaemon社区支持全攻略:从入门到答疑

Kotaemon社区支持全攻略:从入门到答疑 在企业级智能问答系统的开发过程中,许多团队都曾被几个关键问题困扰:模型回答“一本正经地胡说八道”,检索结果与问题毫不相关,部署流程复杂得像拼乐高——每一步都可能卡住。而…

作者头像 李华
网站建设 2025/12/16 17:51:09

GPT-SoVITS模型部署避坑指南:npm安装依赖常见问题汇总

GPT-SoVITS模型部署避坑指南:npm安装依赖常见问题汇总 在当前AI语音技术快速落地的背景下,个性化语音合成已不再是科研机构的专属能力。越来越多的开发者尝试将如 GPT-SoVITS 这类先进的开源项目部署到本地或私有服务器上,用于虚拟主播、有声…

作者头像 李华
网站建设 2025/12/19 12:27:16

AutoGPT项目使用教程:快速上手指南

AutoGPT 使用指南:从零开始构建你的自主智能体 你有没有想过,让 AI 自己决定“下一步该做什么”?不是简单地回答问题,而是像一个真正的助手那样,拿到目标后主动拆解任务、搜索资料、写文档、运行代码,直到…

作者头像 李华
网站建设 2025/12/16 17:50:17

SpEL 表达式详解

SpEL表达式(Spring Expression Language)详解 SpEL(Spring Expression Language)是Spring框架提供的一种强大的表达式语言,用于在运行时查询和操作对象图,支持字面量、运算符、方法调用、属性访问、正则匹配…

作者头像 李华
网站建设 2025/12/19 2:20:55

基于单片机的花卉温室湿度与光照监测系统设计【附代码】

📈 算法与建模 | 专注PLC、单片机毕业设计 ✨ 擅长数据搜集与处理、建模仿真、程序设计、仿真代码、论文写作与指导,毕业论文、期刊论文经验交流。✅ 专业定制毕业设计✅ 具体问题可以私信或查看文章底部二维码(1) 在核心控制单元…

作者头像 李华
网站建设 2025/12/16 17:49:40

基于单片机的智能灯光调节系统设计(亮度+人体感应)【附代码】

📈 算法与建模 | 专注PLC、单片机毕业设计 ✨ 擅长数据搜集与处理、建模仿真、程序设计、仿真代码、论文写作与指导,毕业论文、期刊论文经验交流。 ✅ 专业定制毕业设计 ✅ 具体问题可以私信或查看文章底部二维码 本系统旨在实现照明的智能化节能控制&am…

作者头像 李华