【读点论文】Depth Anything Unleashing the Power of Large-Scale Unlabeled Data基于dinov2结合MiDas进行深度估计，运用无标签数据-开发者社区

Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

Abstract

这项工作提出了 Depth Anything，这是一种用于鲁棒单目深度估计的高度实用的解决方案。在不追求新颖的技术模块的情况下，我们的目标是建立一个简单而强大的基础模型，处理任何情况下的任何图像。为此，我们通过设计数据引擎来收集和自动注释大规模未标记数据（∼62M）来扩展数据集，这显着扩大了数据覆盖范围，从而能够减少泛化误差。我们研究了两种简单而有效的策略，使数据扩展前景光明。
首先，利用数据增强工具创建更具挑战性的优化目标。它迫使模型主动寻求额外的视觉知识并获得稳健的表示。其次，开发了辅助监督来强制模型从预训练的编码器继承丰富的语义先验。我们广泛评估其零样本能力，包括六个公共数据集和随机捕获的照片。它展示了令人印象深刻的泛化能力（图 1）。此外，通过使用 NYUv2 和 KITTI 的度量深度信息对其进行微调，设置了新的 SOTA。我们更好的深度模型也会产生更好的深度调节 ControlNet。我们的模型已发布 [GitHub - LiheYoung/Depth-Anything: CVPR 2024] Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data. Foundation Model for Monocular Depth Estimation。
论文地址：[2401.10891] Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data
Depth Anything是由 HKU 与 TikTok 团队提出的鲁棒单目深度估计基础模型，其核心是通过构建数据引擎收集并自动标注**~62M 大规模无标签图像**，同时结合 1.5M 有标签图像开展联合训练；为充分发挥无标签数据价值，模型采用了两大核心策略，一是通过数据增强（颜色畸变、CutMix）构建更具挑战性的优化目标以学习鲁棒表征，二是借助与冻结 DINOv2 编码器的特征对齐损失继承丰富语义先验；该模型在 6 个公开数据集的零 - shot 相对深度估计任务中大幅超越 MiDaS v3.1，经 NYUv2、KITTI 的 metric 深度信息微调后刷新相关 SOTA，其预训练编码器还在语义分割任务中展现出优异的多任务适配能力。

Introduction

随着“基础模型”的出现，计算机视觉和自然语言处理领域正在经历一场革命，这些模型在各种下游场景中表现出强大的零/少样本性能。这些成功主要依赖于能够有效覆盖数据分布的大规模训练数据。单目深度估计（MDE）是机器人技术、自动驾驶、虚拟现实等领域广泛应用的基本问题，也需要一个基础模型来估计单个图像的深度信息。然而，由于构建具有数千万个深度标签的数据集很困难，这一点尚未得到充分探索。 MiDaS 通过在混合标记数据集上训练 MDE 模型，沿着这个方向进行了开创性的研究。尽管表现出了一定程度的零样本能力，但 MiDaS 受到数据覆盖范围的限制，因此在某些场景下表现不佳。
- 图1.我们的模型在广泛的不可见场景中表现出令人印象深刻的泛化能力。左两列：COCO [36]。中间两列：SA-1B （一个坚持看不见的设置）。右二：我们的模型在弱光环境下也能很好地工作（第1、3栏）、复杂场景（第2、5栏）、大雾天气（第5栏）、超远距离（第5、6栏）等。
在这项工作中，我们的目标是建立一个 MDE 基础模型，能够在任何情况下为任何图像生成高质量的深度信息。我们从数据集扩展的角度来实现这一目标。传统上，深度数据集主要通过从传感器、立体匹配或 SfM 获取深度数据来创建，这是昂贵、耗时的，在特定情况下甚至是棘手的。相反，我们第一次关注大规模未标记数据。
与来自深度传感器的立体图像或标记图像相比，我们使用的单目未标记图像具有三个优点：（i）（获取简单且便宜）单目图像几乎无处不在，因此很容易收集，不需要专门的设备。（ii）（多样化）单目图像可以覆盖更广泛的场景，这对于模型泛化能力和可扩展性至关重要。 (iii)（易于注释）我们可以简单地使用预先训练的 MDE 模型为未标记的图像分配深度标签，这仅需要前馈步骤。不仅效率更高，这还产生比 LiDAR 更密集的深度图，并省略了计算密集型的立体匹配过程。
我们设计了一个数据引擎来自动为未标记的图像生成深度注释，从而使数据能够扩展到任意规模。它从 8 个公共大型数据集（例如 SA-1B 、Open Images 和 BDD100K ）收集了 6200 万张多样化且信息丰富的图像。我们使用他们的原始未标记图像，没有任何形式的标签。然后，为了为我们的未标记图像提供可靠的注释工具，我们从六个公共数据集中收集了 150 万张标记图像来训练初始 MDE 模型。然后，未标记的图像被自动注释，并以自我训练的方式与标记的图像联合学习。
尽管单目无标记图像具有上述所有优点，但积极利用此类大规模无标记图像确实并非易事，特别是在有足够标记图像和强大预训练模型的情况下。在我们的初步尝试中，直接组合标记图像和伪标记图像未能改善单独使用标记图像的基线。我们推测，通过这种天真的自学方式获得的额外知识是相当有限的。为了解决这个困境，我们建议在学习伪标签时用更难的优化目标来挑战学生模型。学生模型被迫寻求额外的视觉知识并在各种强烈扰动下学习稳健的表示，以更好地处理看不见的图像。
此外，已经有一些工作展示了 MDE 辅助语义分割任务的好处。我们也遵循这个研究路线，旨在使我们的模型具有更好的高级场景理解能力。然而，我们观察到，当 MDE 模型已经足够强大时，这样的辅助任务很难带来进一步的收益。我们推测这是由于将图像解码到离散类空间时语义信息严重丢失所致。因此，考虑到 DINOv2 在语义相关任务中的出色性能，我们建议通过简单的特征对齐损失来保持丰富的语义先验。这不仅增强了 MDE 性能，而且还为中级和高级感知任务提供了多任务编码器。我们的贡献总结如下：
- 我们强调了大规模、廉价且多样化的未标记图像的数据扩展对于 MDE 的价值。
- 我们指出了联合训练大规模标记和未标记图像的关键实践。我们不是直接学习原始的未标记图像，而是用更难的优化目标来挑战模型以获得额外的知识。
- 我们建议从预训练编码器继承丰富的语义先验，以更好地理解场景，而不是使用辅助语义分割任务。
- 我们的模型表现出比 MiDaS-BEiTL-512 更强的零样本能力。此外，通过公制深度进行微调，它的性能显着优于 ZoeDepth 。

单目深度估计的价值与困境，单目深度估计（MDE）是机器人、自动驾驶、虚拟现实等领域的基础任务，但受限于深度标注数据的稀缺性，传统模型泛化能力不足。现有方法（如 MiDaS）依赖混合有标签数据集训练，虽有一定零 - shot 能力，但数据覆盖度有限，在低光、雾天等复杂场景表现较差。区别于传统的传感器、立体匹配等标注方式，论文首次聚焦大规模无标签单目图像，其具备获取成本低、场景覆盖广、标注高效的三大优势。采用自训练框架：先从有标签数据训练教师模型，再为无标签数据生成伪标签，最后训练学生模型完成有标签 + 伪标签的联合学习。

数据类型	数据规模	来源数据集数量	用途
有标签数据	1.5M	6 个	训练初始教师模型，提供真实深度监督
无标签数据	62M	8 个（SA-1B、Open Images 等）	由教师模型生成伪深度标签，拓展数据覆盖

对无标签图像施加颜色抖动、高斯模糊等颜色畸变，以及CutMix空间畸变，迫使模型学习不变性表征。CutMix 损失设计：分区域计算仿射不变损失并加权融合，提升模型对复杂图像的适配性。学生模型不基于教师模型微调，而是重新初始化；批次内有标签 / 无标签数据比例为 1:2。摒弃传统离散语义分割辅助任务（易丢失语义信息），选择与冻结 DINOv2 编码器做特征对齐，利用其连续高维特征保留丰富语义先验。
损失与阈值设计，特征对齐损失公式：L f e a t = 1 − 1 H W ∑ i = 1 H W c o s ( f i , f i ′ ) \mathcal{L}_{feat }=1-\frac{1}{H W} \sum_{i=1}^{H W} cos \left(f_{i}, f_{i}'\right)Lfeat=1−HW1∑i=1HWcos(fi,fi′)，其中f为学生模型特征，f ′ f'f′为 DINOv2 特征。设置容忍阈值 α=0.85，仅对相似度低于阈值的像素计算损失，平衡语义一致性与深度判别性。由有标签损失L l \mathcal{L}_{l}Ll、无标签损失L u \mathcal{L}_{u}Lu、特征对齐损失L f e a t \mathcal{L}_{feat }Lfeat平均加权构成。

Related Work

单目深度估计（MDE）。早期的作品主要依赖于手工制作的特征和传统的计算机视觉技术。他们受到对明确深度线索的依赖的限制，并且难以处理具有遮挡和无纹理区域的复杂场景。
基于深度学习的方法通过从精心注释的数据集中有效学习深度表示，彻底改变了单目深度估计。 Eigen等人首先提出了一种多尺度融合网络来回归深度。在此之后，许多工作通过仔细地将回归任务设计为分类任务、引入更多先验和更好的目标函数等来持续提高深度估计精度。尽管性能有希望，但它们很难推广到看不见的领域。
零样本深度估计。我们的工作属于这个研究方向。我们的目标是使用不同的训练集训练 MDE 模型，从而可以预测任何给定图像的深度。一些开创性的工作通过收集更多的训练图像来探索这个方向，但它们的监督非常稀疏，并且仅在有限的点对上强制执行。
为了实现有效的多数据集联合训练，MiDaS 的一项里程碑式工作利用仿射不变损失来忽略不同数据集之间潜在的不同深度尺度和变化。因此，MiDaS 提供相对深度信息。最近，一些工作进一步估计了度量深度。然而，在我们的实践中，我们观察到此类方法的泛化能力比 MiDaS 差，尤其是其最新版本。此外，正如 ZoeDepth 所证明的那样，通过使用度量深度信息进行微调，强大的相对深度估计模型也可以很好地用于可推广的度量深度估计。因此，我们在相对深度估计方面仍然遵循MiDaS，但通过突出大规模单目未标记图像的价值来进一步加强它。
利用未标记的数据。这属于半监督学习的研究领域，受到各种应用的欢迎。然而，现有的工作通常假设只有有限的图像可用。他们很少考虑具有挑战性但现实的场景，即已经有足够的标记图像，但也有更大规模的未标记图像。我们将这个具有挑战性的方向用于零样本 MDE。我们证明，未标记的图像可以显着增强数据覆盖范围，从而提高模型的泛化性和鲁棒性。

Depth Anything

我们的工作利用标记和未标记图像来促进更好的单目深度估计（MDE）。形式上，标记集和未标记集分别表示为D l = { ( x i , d i ) } i = 1 M 和 D u = { u i } i = 1 N D^l = \{(x_i , d_i)\}^M_{i=1} 和 D^u = \{u_i\}^N_{i=1}Dl={(xi,di)}i=1M和Du={ui}i=1N。我们的目标是从 Dl 学习教师模型 T。然后，我们利用 T 为 Du 分配伪深度标签。最后，我们结合标记集和伪标记集训练学生模型 S。图 2 提供了简要说明。
- 图2.我们的流水线。实线：标记图像流，虚线：未标记图像。我们特别强调了大规模未标记图像的价值。S表示添加强扰动（第3.2节）。为了使我们的深度估计模型具有丰富的语义先验，我们在在线学生模型和冻结编码器之间强制执行辅助约束，以保留语义能力（第3.3节）。

Learning Labeled Images

这个过程与MiDaS的训练类似。不过，由于MiDaS没有公开其代码，所以我们先进行了复现。具体来说，深度值首先通过 d = 1/t 变换到视差空间，然后在每个深度图上归一化为 0∼1。为了实现多数据集联合训练，我们采用仿射不变损失来忽略每个样本的未知尺度和偏移：
- L l = 1 H W ∑ i = 1 H W ρ ( d i ∗ , d i ) , ( 1 ) \mathcal {L}_l = \frac {1}{HW}\sum _{i=1}^{HW}\rho (d_i^*, d_i), (1)Ll=HW1i=1∑HWρ(di∗,di),(1)
- 其中d i ∗ d^∗_idi∗和d i d_idi分别是预测值和真实值。 ρ 是仿射不变平均绝对误差损失：ρ ( d i ∗ , d i ) = ∣ d ^ i ∗ − d ^ i ∣ ρ(d^∗_i , d_i) = |\hat d^*_i −\hat d_i |ρ(di∗,di)=∣d^i∗−d^i∣，其中 ^d * i 和 ^di 是预测 d * i 和真实值 di 的缩放和移位版本：
- d ^ i = d i − t ( d ) s ( d ) , ( 2 ) \hat {d}_i = \frac {d_i - t(d)}{s(d)}, (2)d^i=s(d)di−t(d),(2)
- 其中 t(d) 和 s(d) 用于对齐预测和真实值，以实现零平移和单位比例：
- KaTeX parse error: Undefined control sequence: \label at position 2: \̲l̲a̲b̲e̲l̲ ̲{eq:median} t(d…
为了获得鲁棒的单目深度估计模型，我们从 6 个公共数据集中收集了 150 万张标记图像。表 1 列出了这些数据集的详细信息。我们使用的标记数据集少于 MiDaS v3.1（12 个训练数据集），因为 1）我们不使用 NYUv2 和 KITTI 数据集来确保对它们进行零样本评估，2）某些数据集（不再）可用，例如电影和 WSVD，以及 3）某些数据集表现不佳质量，例如 RedWeb（也是低分辨率）。尽管使用较少的标记图像，我们易于获取且多样化的未标记图像将理解数据覆盖范围并大大增强模型的泛化能力和鲁棒性。
- 表1.总的来说，我们的Depth Anything在1.5M标记图像和62M未标记图像上进行了训练。
此外，为了加强从这些标记图像中学习的教师模型 T，我们采用 DINOv2 预训练权重来初始化我们的编码器。在实践中，我们应用预训练的语义分割模型来检测天空区域，并将其视差值设置为0（最远）。

Unleashing the Power of Unlabeled Images

这是我们工作的重点。与之前费力构建不同标记数据集的工作不同，我们强调了未标记图像在增强数据覆盖方面的价值。如今，我们实际上可以从互联网或各种任务的公共数据集中构建多样化且大规模的无标签集。此外，我们只需将单眼未标记图像转发到预先训练的性能良好的 MDE 模型，就可以轻松获得它们的密集深度图。这比对立体图像或视频进行立体匹配或SfM重建更加方便和高效。我们选择八个大型公共数据集作为其不同场景的未标记来源。它们总共包含超过 6200 万张图像。表 1 的下半部分提供了详细信息。从技术上讲，给定之前获得的 MDE 教师模型 T，我们对未标记集 Du 进行预测以获得伪标记集D ^ u \hat D_uD^u：
D ^ u = { ( u i , T ( u i ) ) ∣ u i ∈ D u } i = 1 N . ( 4 ) \hat {\mathcal {D}}^u = \{(u_i, T(u_i)) | u_i \in \mathcal {D}^u\}_{i=1}^N. (4)D^u={(ui,T(ui))∣ui∈Du}i=1N.(4)
利用标记图像和伪标记图像的组合集D l ∪ D ^ u D^l ∪\hat D^uDl∪D^u，我们在其上训练学生模型 S。继之前的工作之后，我们没有从 T 中微调 S，而是重新初始化 S 以获得更好的性能。
不幸的是，在我们的试点研究中，我们未能通过这样的自我训练管道获得改进，这确实与只有少量标记图像时的观察结果相矛盾。我们推测，在我们的例子中已经有足够的标记图像，从额外的未标记图像中获得的额外知识是相当有限的。特别是考虑到教师和学生共享相同的预训练和架构，即使没有明确的自训练过程，他们也倾向于对未标记的集 Du 做出类似的正确或错误预测。
为了解决这个困境，我们建议向学生提出一个更困难的优化目标，以获取未标记图像的额外视觉知识。我们在训练期间向未标记的图像注入强烈的扰动。它迫使我们的学生模型积极寻求额外的视觉知识并从这些未标记的图像中获取不变的表示。这些优势有助于我们的模型更稳健地应对开放世界。我们引入两种形式的扰动：一种是强烈的颜色扭曲，包括颜色抖动和高斯模糊，另一种是强烈的空间扭曲，即 CutMix 。尽管很简单，但这两个修改使得我们的大规模未标记图像显着提高了标记图像的基线。
我们提供有关 CutMix 的更多详细信息。它最初是为了图像分类而提出的，在单目深度估计中很少被探索。我们首先在空间上插入一对随机的未标记图像 ua 和 ub：
- u a b = u a ⊙ M + u b ⊙ ( 1 − M ) , ( 5 ) u_{ab} = u_a \odot M + u_b \odot (1 - M), (5)uab=ua⊙M+ub⊙(1−M),(5)
- 其中 M 是矩形区域设置为 1 的二值掩码。
未标记损失 Lu 是通过首先计算分别由 M 和 1 − M 定义的有效区域中的仿射不变损失来获得的：
- KaTeX parse error: Expected 'EOF', got '&' at position 2: &̲\mathcal {L}^M_…
- 为了简单起见，我们省略了∑ \sum∑和像素下标 i。然后我们通过加权平均来汇总这两个损失：
- L u = ∑ M H W L u M + ∑ ( 1 − M ) H W L u 1 − M . ( 8 ) \mathcal {L}_u = \frac {\sum M}{HW}\mathcal {L}^M_u + \frac {\sum (1-M)}{HW}\mathcal {L}^{1-M}_u. (8)Lu=HW∑MLuM+HW∑(1−M)Lu1−M.(8)
我们以 50% 的概率使用 CutMix。 CutMix 的未标记图像在颜色上已经严重失真，但输入教师模型 T 进行伪标记的未标记图像是干净的，没有任何失真。

Semantic-Assisted Perception

有一些工作通过辅助语义分割任务来改进深度估计。我们相信，用这种高级语义相关信息武装我们的深度估计模型是有益的。此外，在我们利用未标记图像的特定背景下，来自其他任务的这些辅助监督信号也可以对抗伪深度标签中的潜在噪声
因此，我们进行了初步尝试，结合 RAM + GroundingDINO + HQ-SAM 模型，仔细地将语义分割标签分配给未标记的图像。经过后处理后，会产生一个包含 4K 类的类空间。在联合训练阶段，模型被强制使用共享编码器和两个单独的解码器生成深度和分割预测。不幸的是，经过反复试验，我们仍然无法提升原始 MDE 模型的性能。我们推测，将图像解码为离散类空间确实会丢失太多语义信息。这些语义掩模中的有限信息很难进一步提升我们的深度模型，特别是当我们的深度模型已经建立了非常有竞争力的结果时。
因此，我们的目标是寻求更多信息丰富的语义信号来作为深度估计任务的辅助监督。我们对 DINOv2 模型在语义相关任务（例如图像检索和语义分割）中的强大性能感到非常惊讶，即使是在没有任何微调的情况下冻结权重。受这些线索的启发，我们建议将其强大的语义能力转移到具有辅助特征对齐损失的深度模型中。特征空间是高维且连续的，因此比离散掩模包含更丰富的语义信息。特征对齐损失的公式为：
- L f e a t = 1 − 1 H W ∑ i = 1 H W cos ⁡ ( f i , f i ′ ) , ( 9 ) \mathcal {L}_{feat} = 1 - \frac {1}{HW}\sum _{i=1}^{HW}\cos (f_i, f'_i), (9)Lfeat=1−HW1i=1∑HWcos(fi,fi′),(9)
- 其中 cos(·,·) 测量两个特征向量之间的余弦相似度。 f 是深度模型 S 提取的特征，而 f ’ 是来自冻结的 DINOv2 编码器的特征。我们没有遵循一些工作将在线特征 f 投影到新的空间中进行对齐，因为随机初始化的投影仪使得较大的对齐损失在早期阶段主导了整体损失。
特征对齐的另一个关键点是，像 DINOv2 这样的语义编码器往往会为对象的不同部分（例如汽车的前部和后部）产生相似的特征。然而，在深度估计中，不同的部分甚至同一部分内的像素可以具有不同的深度。因此，彻底强制我们的深度模型产生与冻结编码器完全相同的特征是没有好处的。
为了解决这个问题，我们为特征对齐设置了一个公差裕度α。如果f i 和 f i ′ f_i 和 f^′_ifi和fi′的余弦相似度超过 α，则该像素将不会被考虑在我们的 Lf eat 中。这使得我们的方法能够享受 DINOv2 的语义感知表示和深度监督的部分级判别表示。As a side effect，我们生成的编码器不仅在下游 MDE 数据集中表现良好，而且在语义分割任务中也取得了很好的结果。它还表明我们的编码器具有作为中级和高级感知任务的通用多任务编码器的潜力。最后，我们的总体损失是 Ll 、 Lu 和 Lf 所吃的三个损失的平均组合。

Experiment

Implementation Details

我们采用 DINOv2 编码器进行特征提取。遵循 MiDaS ，我们使用 DPT 解码器进行深度回归。所有标记的数据集都简单地组合在一起，无需重新采样。在第一阶段，我们在标记图像上训练教师模型 20 个 epoch。在联合训练的第二阶段，我们训练一个学生模型一次性扫描所有未标记的图像。未标记的图像由性能最佳的教师模型和 ViT-L 编码器进行注释。每批中标记图像和未标记图像的比例设置为 1:2。在这两个阶段中，预训练编码器的基础学习率均设置为5e-6，而随机初始化的解码器则使用10倍大的学习率。我们使用 AdamW 优化器并通过线性计划衰减学习率。我们仅应用水平翻转作为标记图像的数据增强。特征对准损失的公差裕度α设置为0.85。欲了解更多详情，请参阅我们的附录。

Zero-Shot Relative Depth Estimation

如上所述，这项工作旨在为任何图像提供准确的深度估计。因此，我们在六个代表性的看不见的数据集上全面验证了 Depth Anything 模型的零样本深度估计能力：KITTI 、NYUv2 、Sintel 、DDAD 、ETH3D 和 DIODE 。我们与最新 MiDaS v3.1 中最好的 DPT-BEiTL-512 模型进行比较，该模型使用的标记图像比我们更多。如表 2 所示，无论使用 ViT-L 编码器，我们的 Depth Anything 在 AbsRel（绝对相对误差：∣ d ∗ − d ∣ / d |d^∗ −d|/d∣d∗−d∣/d）和 δ1（m a x ( d ∗ / d , d / d ∗ ) < 1.25 max(d ^∗/d, d/d^∗ ) < 1.25max(d∗/d,d/d∗)<1.25的百分比）指标方面都在广泛的场景中极大地超越了最强的 MiDaS 模型。例如，在著名的自动驾驶数据集DDAD上进行测试时，我们将AbsRel（↓）从0.251→0.230改进，并将δ1（↑）从0.766→0.789改进。
- 表2.零样本相对深度估计。更好：AbsRel ↓，δ1 ↑。我们与MiDaS v3.1的最佳模型进行比较。请注意，MiDaS并不严格遵循KITTI和NYUv 2上的零样本评估，因为它使用了它们的训练图像。我们基于ViT-S提供了三种用于不同目的的模型尺度（24.8M）、ViT-B（97.5M）和ViT-L（335.3M）。
此外，我们的 ViT-B 模型已经明显优于基于更大的 ViT-L 的 MiDaS。此外，我们的 ViT-S 模型的规模还不到 MiDaS 模型的 1/10，甚至在几个未见的数据集上表现优于 MiDaS，包括 Sintel、DDAD 和 ETH3D。这些小规模模型的性能优势证明了它们在计算受限的场景中的巨大潜力。
值得注意的是，在最常用的MDE基准测试集KITTI和NYUv2上，尽管MiDaS v3.1使用了对应的训练图像（不再是零样本学习），我们的Depth Anything模型在未训练任何KITTI或NYUv2图像的情况下仍明显优于它，例如在KITTI测试集上AbsRel为0.127 vs. 0.076，δ1为0.850 vs. 0.947。

Fine-tuned to Metric Depth Estimation

除了在零样本相对深度估计方面令人印象深刻的性能之外，我们还进一步检查了我们的 Depth Anything 模型作为下游度量深度估计的有前途的权重初始化。我们使用预先训练的编码器参数初始化下游 MDE 模型的编码器，并随机初始化解码器。该模型使用相应的度量深度信息进行微调。在这一部分中，我们使用 ViT-L 编码器进行微调。
我们研究了两种代表性场景：1）域内度量深度估计，其中模型在同一域上进行训练和评估（第 4.3.1 节）；2）零样本度量深度估计，其中模型在一个域上进行训练，例如 NYUv2 ，但在不同域中进行评估，例如 SUN RGB-D （第 4.3.2 节）。

In-Domain Metric Depth Estimation

如 NYUv2 的表 3 所示，我们的模型显着优于之前的最佳方法 VPD ，将 δ1 (↑) 从 0.964 → 0.984 提高，将 AbsRel (↓) 从 0.069 提高到 0.056。在 KITTI 数据集的表 4 中可以观察到类似的改进。我们将 KITTI 上的 δ1 (↑) 从 0.978 → 0.982 改进。值得注意的是，我们针对这个场景采用了 ZoeDepth 框架，具有相对基本的深度模型，我们相信如果配备更先进的架构，我们的结果可以进一步增强。
- 表3.使用我们预先训练的MDE编码器对NYUv2 进行微调和评估。我们突出显示了最佳，次佳结果以及最具区分力的指标。
- 表4.使用我们预先训练的MDE编码器对KITTI 进行微调和评估。*：由我们复制。

Zero-Shot Metric Depth Estimation

我们按照 ZoeDepth 进行零样本度量深度估计。 ZoeDepth 使用来自 NYUv2（针对室内场景）或 KITTI （针对室外场景）的度量深度信息对 MiDaS 预训练编码器进行微调。因此，我们只需用我们更好的 Depth Anything 编码器替换 MiDaS 编码器，而其他组件保持不变。如表 5 所示，在各种未见过的室内和室外场景数据集上，我们的 Depth Anything 产生了比基于 MiDaS 的原始 ZoeDepth 更好的度量深度估计模型。
- 表5.零样本度量深度估计。头部中的前三个测试集是室内场景，而最后两个是室外场景。在ZoeDepth之后，我们使用在NYUv2上训练的模型进行室内泛化，而使用在KITTI上训练的模型进行室外评估。为了公平比较，我们报告了在我们的环境中复制的ZoeDepth结果。

Fine-tuned to Semantic Segmentation

在我们的方法中，我们设计 MDE 模型，通过简单的特征对齐约束从预训练的编码器继承丰富的语义先验。在这里，我们检查 MDE 编码器的语义能力。具体来说，我们根据下游语义分割数据集微调 MDE 编码器。正如 Cityscapes 数据集的表 7 所示，我们的大规模 MDE 训练编码器 (86.2 mIoU) 优于大规模 ImageNet-21K 预训练的现有编码器，例如 Swin-L (84.3) 和 ConvNeXt-XL (84.6)。表 8 中的 ADE20K 数据集也有类似的观察结果。我们将之前的最佳结果从 58.3 → 59.4 改进。我们希望强调的是，见证了我们的预训练编码器在单目深度估计和语义分割任务上的优越性，我们相信它具有作为中级和高级视觉感知系统的通用多任务编码器的巨大潜力。
- 表7.将我们的MDE预训练编码器转移到Cityscapes进行语义分割。我们不使用Mapillary 进行预训练。s.s./m.s.：单尺度/多尺度评估。
- 表8.将MDE编码器转移到ADE 20K进行语义分割。我们使用Mask2Former作为分割模型。

Ablation Studies

除非另有说明，我们在这里使用 ViT-L 编码器进行消融研究。
每个训练数据集的零样本传输。在表 6 中，我们提供了每个训练数据集的零样本传输性能，这意味着我们在一个训练集上训练相对的 MDE 模型，并在六个未见过的数据集上对其进行评估。通过这些结果，我们希望为未来的工作提供更多见解，这些工作同样旨在构建通用的单目深度估计系统。
- 表6.检查每个标记的训练集（左）到六个未见过的数据集（上）的零触发传输性能。更好的性能：AbsRel ↓，δ1 ↑。我们分别以粗体，下划线和斜体突出显示每个测试数据集的最佳，第二和第三好结果。
在六个训练数据集中，HRWSI 为我们的模型提供了最强的泛化能力，尽管它只包含 20K 图像。这表明数据多样性非常重要，这与我们利用未标记图像的动机非常一致。一些标记数据集可能表现不佳，例如 MegaDepth ，但是，它有自己的偏好，这些偏好并未反映在这六个测试数据集中。例如，我们发现使用 MegaDepth 数据训练的模型专门用于估计超远程建筑物的距离（图 1），这对于飞行器非常有利。
有效性：1）在学习未标记图像时挑战学生模型，2）语义约束。如表9所示，简单地添加带有伪标签的未标记图像并不一定会给我们的模型带来收益，因为标记图像已经足够了。然而，在重新训练期间对未标记图像施加强扰动（S），学生模型面临着寻求额外视觉知识和学习更鲁棒表示的挑战。因此，大规模未标记图像显着增强了模型的泛化能力。
- 表9.消融研究：1）在学习未标记图像时用强扰动（S）挑战学生，2）语义约束（Lfeat）。受空间限制，我们只报告AbsRel（↓）度量，并缩短数据集名称的前两个字母。
此外，使用我们使用的语义约束L f e a t L_{feat}Lfeat，可以进一步放大未标记图像的深度估计任务的能力。更重要的是，如第4.4节所强调的，这个辅助约束还使我们训练的编码器能够作为多任务视觉系统中的关键组件，用于中级和高级感知。
与MiDaS训练的编码器在下游任务中的比较。我们的Depth Anything模型表现出比MiDaS更强的零触发能力。在这里，我们进一步比较了我们训练的编码器与MiDaS v3.1 训练的编码器的下游微调性能。如表10所示，在下游深度估计任务和语义分割任务上，我们生产的编码器明显优于MiDaS编码器，例如，NYUv2上的δ1度量为0.951 vs. 0.984，ADE 20K上的mIoU度量为52.4 vs. 59.4。
- 表10.我们训练的编码器和MiDaS 训练的编码器在下游微调性能方面的比较。更好的性能：AbsRel ↓，δ1 ↑，mIoU ↑。
与DINOv2在下游任务中的比较。我们已经证明了我们训练的编码器在微调到下游任务时的优越性。由于我们最终生产的编码器（来自大规模MDE训练）是从DINOv2 微调的，我们将我们的编码器与表11中的原始DINOv2编码器进行比较。可以观察到，我们的编码器在下行度量和下行度量方面都优于原始DINOv2编码器。深度估计任务和语义分割任务。虽然DINOv2权重提供了非常强大的初始化，但我们大规模和高质量的MDE训练可以进一步提高下游传输性能。
- 表11.原始DINOv2和我们生产的编码器在下游微调性能方面的比较。

Qualitative Results

我们在图3中对六个看不见的数据集进行了可视化模型预测。我们的模型对来自各个领域的测试图像具有鲁棒性。此外，我们在图4中将我们的模型与MiDaS进行了比较。我们还尝试使用ControlNet 合成以预测深度图为条件的新图像。我们的模型比MiDaS产生更准确的深度估计，以及更好的合成结果。为了更准确的合成，我们基于我们的Depth Anything重新训练了一个更好的深度调节控制网络，旨在为图像合成和视频编辑提供更好的控制信号。请参阅我们的项目页面，了解有关使用我们的Depth Anything进行视频编辑的更多定性结果。
- 图3.六个未知数据集的定性结果。
- 图4.我们将深度预测与MiDaS进行了比较。同时，我们使用ControlNet从深度图中合成新图像。

Conclusion

在这项工作中，我们提出了Depth Anything，一个非常实用的鲁棒单目深度估计解决方案。与现有技术不同，我们特别强调了廉价和多样化的未标记图像的价值。我们设计了两个简单而高效的策略来充分利用它们的价值：1）在学习未标记图像时提出更具挑战性的优化目标，2）从预训练的模型中保留丰富的语义先验。因此，我们的Depth Anything模型具有出色的零样本深度估计能力，也可以作为下游度量深度估计和语义分割任务的有希望的初始化。

Supplementary Material

More Implementation Details

我们将所有图像的短边调整为518，并保持原始长宽比。在训练过程中，所有图像都被裁剪为518×518。在推理过程中，我们不裁剪图像，只确保两边都是14的乘数，因为DINOv2编码器的预定义的补丁大小是14。通过内插预测以原始分辨率执行评估。在MiDaS 之后，在零样本评估中，我们的预测的尺度和偏移与地面实况手动对齐。
当微调我们的预训练编码器以度量深度估计时，我们采用ZoeDepth代码库。我们只是用我们更强的Depth Anything编码器替换原始的基于MiDaS的编码器，修改了一些超参数。具体地说，NYUv 2 上的训练分辨率为392×518，KITTI 上的训练分辨率为384×768，以匹配我们编码器的补丁大小。编码器学习率设置为1/随机初始化解码器的学习率为50，由于我们的强初始化，这比MiDaS编码器采用的1/10小得多。批量大小为16，模型训练5个epoch。
当微调我们预先训练的编码器以进行语义分割时，我们使用MMSegmentation代码库。在ADE 20 K 和Cityscapes 上，训练分辨率设置为896×896。编码器学习率设置为3e-6，解码器学习率为10倍。我们使用Mask 2Former 作为我们的语义分割模型。该模型在ADE 20 K上进行了160 K次迭代训练，在Cityscapes上进行了80 K次迭代训练，批量大小均为16，没有任何COCO 或Mapillary 预训练。其他训练配置与原始代码库相同。

More Ablation Studies

此处的所有消融研究均在ViT-S模型上进行。特征对准中公差裕度的必要性。如表12所示，公差范围1.00和0.85或0.70之间的差距清楚地证明了该设计的必要性（平均AbsRel：0.188 vs. 0.175）。
将特征对齐应用于标记数据。以前，我们对未标记数据强制执行特征对齐损失L f e a t L_{feat}Lfeat。实际上，将此约束也应用于标记数据在技术上是可行的。在表13中，除了对未标记数据应用L f e a t L_{feat}Lfeat外，我们探索将其应用于标记数据。我们发现，将此辅助优化目标添加到标记数据对我们的基线没有好处，任何特征对齐（它们的平均AbsRel值几乎相同：0.180对0.179）。
我们推测，这是因为标记数据具有相对更高质量的深度注释。语义丢失的参与可能会干扰这些信息丰富的手动标签的学习。相比之下，我们的伪标签噪音更大，信息量更少。因此，将辅助约束引入未标记的数据可以对抗伪深度标签中的噪声，并为我们的模型提供语义能力。

Limitations and Future Works

目前，最大的模型大小仅限于ViTLarge 。因此，在未来，我们计划进一步将模型大小从ViT-Large扩展到ViT-Giant，这也是由DINOv 2 预先训练好的。我们可以用更大的模型训练更强大的教师模型，为较小的模型学习产生更准确的伪标签，例如ViT-L和ViT-B。此外，为了方便实际应用，我们认为目前广泛采用的512×512训练分辨率是不够的，我们计划在700+甚至1000+的更大分辨率上重新训练我们的模型。

More Qualitative Results

请参阅以下页面，了解六个未知测试集的全面定性结果（图5为KITTI ，图6为NYUv 2 ，图7为Sintel ，图8为DDAD ，图9为ETH 3D ，图10为DIODE ）。我们将我们的模型与最强的MiDaS模型进行比较，即，DPT-BEiTL-512。我们的模型具有更高的深度估计精度和更强的鲁棒性。请参阅我们的项目页面以获取更多可视化效果。
- 图5. KITTI上的定性结果。由于非常稀疏的基础事实很难可视化，我们在这里将我们的预测与最先进的MiDaS v3.1 预测进行比较。颜色越亮表示距离越近。
为解决该困境，模型采用了两大核心策略。一是构建更具挑战性的优化目标，对无标签图像施加颜色畸变、CutMix 等强扰动，迫使学生模型主动挖掘额外视觉知识、学习鲁棒表征；二是引入语义辅助约束，通过与冻结 DINOv2 编码器的特征对齐，继承丰富语义先验，同时设置容忍阈值避免语义信息干扰深度判别性，既抵消伪标签噪声，又提升模型的场景理解能力。
Depth Anything 在零 - shot 深度估计任务中相比 MiDaS v3.1 的核心优势体现在泛化能力更强、模型效率更高。一方面，在 KITTI、NYUv2 等 6 个 unseen 数据集上，其 AbsRel 指标平均下降超 15%，δ1 指标平均提升超 8%，且在低光、雾天、超远距离等复杂场景表现稳定；另一方面，小参数量的 ViT-S 模型（24.8M）性能可媲美甚至超越 MiDaS 的大模型 ViT-L（335.3M）。优势来源是62M 大规模无标签数据带来的广场景覆盖，以及强扰动和语义对齐策略带来的表征鲁棒性。
传统 ImageNet 预训练编码器仅学习分类级语义，而 Depth Anything 的编码器在训练中通过DINOv2 特征对齐继承了细粒度语义先验，同时单目深度任务迫使编码器学习了场景的空间层级结构，兼具语义理解与空间感知能力，因此在语义分割任务中表现更优。其多任务潜力体现在：既能胜任单目深度估计的中层视觉任务，又能适配语义分割的高层视觉任务，具备成为通用视觉感知编码器的潜质。
Depth Anything 是面向鲁棒单目深度估计的基础模型，其算法设计围绕“大规模无标签数据价值挖掘”核心目标，通过数据引擎构建、训练策略创新、语义先验融合三大维度工作，实现了零 - shot 泛化性与下游任务适配性的突破。以下从工作内容、模型模块、损失函数、论点论据及底层逻辑展开深度解析。
- 数据层面：构建大规模有 / 无标签数据集及自动标注引擎，有标签数据集构建：筛选 6 个公开数据集的 1.5M 有标签图像（规避 NYUv2/KITTI 以保证零 - shot 验证），用于训练初始教师模型；无标签数据集构建：从 SA-1B、Open Images 等 8 个数据集收集 62M 无标签图像，通过教师模型生成伪深度标签，形成 “有标签 + 伪标签” 的联合训练数据；自动标注引擎：基于预训练教师模型的前向推理实现无标签图像的高效、密集伪标注，替代传统 LiDAR / 立体匹配的高成本标注方案。
- 训练策略层面：强扰动优化目标与语义特征对齐，强扰动优化目标：对无标签图像施加颜色畸变（颜色抖动、高斯模糊）与空间畸变（CutMix），迫使模型学习不变性视觉表征；其中 CutMix 采用 50% 概率随机插值两张无标签图像，分区域计算损失并加权融合；语义特征对齐：摒弃传统离散语义分割辅助任务，引入冻结 DINOv2 编码器的连续特征空间，通过余弦相似度损失实现深度模型与语义模型的特征对齐，并设置容忍阈值 α 过滤高相似度像素，平衡语义一致性与深度判别性。
- 架构适配层面：编码器解码器选型与初始化策略，编码器选型：采用 DINOv2 预训练的 ViT 系列编码器（S/B/L 三尺度），继承其强大的通用视觉表征能力；解码器选型：沿用 MiDaS 的 DPT 解码器实现深度回归，保证与现有深度估计范式的兼容性；初始化策略：学生模型不基于教师模型微调，而是重新初始化，避免师生模型的预测偏差同质化。

Depth Anything 的模型可拆解为4 个核心模块，各模块分工明确，参数调节针对不同目标优化：

模块名称	核心作用	关键参数	参数调节逻辑
DINOv2 编码器	提取高维视觉特征，继承预训练语义先验	1. 学习率：5e-6；2. 模型尺度：ViT-S/B/L；3. 输入分辨率：短边 resize 至 518，训练时裁剪为 518×518	1. 编码器学习率远低于解码器，避免预训练语义表征被破坏；2. 不同尺度适配算力与精度需求（ViT-L 精度最高，ViT-S 轻量化）
DPT 解码器	将编码器特征映射为像素级深度图	1. 学习率：5e-5（编码器的 10 倍）；2. 优化器：AdamW；3. 学习率调度：线性衰减	解码器随机初始化，需更高学习率快速拟合深度回归任务；线性调度保证训练后期的稳定性
强扰动模块	增强无标签数据的优化难度，提升模型鲁棒性	1. CutMix 概率：50%；2. 颜色畸变强度：自适应颜色抖动 / 高斯模糊；3. CutMix 掩码 M：随机矩形区域	50% CutMix 概率平衡原始图像与混合图像的训练比例；掩码区域保证深度预测的区域一致性
语义对齐模块	融合 DINOv2 语义先验，提升场景理解能力	1. 容忍阈值 α：0.85；2. 损失权重：与L l L_lLl/L u L_uLu平均加权；3. 特征维度：与 DINOv2 编码器输出一致	α=0.85 避免强制对齐破坏深度的局部判别性；平均加权保证深度任务与语义任务的平衡

编码器提取的特征同时流向 DPT 解码器（深度回归）和语义对齐模块（特征一致性约束）；无标签图像先经扰动模块增强，再输入解码器与语义对齐模块，实现 “深度回归 + 语义监督 + 鲁棒性增强” 的联合优化。

Depth Anything 的总损失为有标签损失L l L_lLl、无标签损失L u L_uLu、语义对齐损失L f e a t L_{feat}Lfeat的平均加权，各损失的设计侧重针对不同训练阶段的核心矛盾：
- 有标签损失L l L_lLl：仿射不变的深度回归损失，数学表达式L l = 1 H W ∑ i = 1 H W ρ ( d i ∗ , d i ) , ρ ( d i ∗ , d i ) = ∣ d ^ i ∗ − d ^ i ∣ \mathcal{L}_{l}=\frac{1}{H W} \sum_{i=1}^{H W} \rho\left(d_{i}^{*}, d_{i}\right), \quad \rho(d_{i}^{*}, d_{i})=|\hat{d}_{i}^{*}-\hat{d}_{i}|Ll=HW1∑i=1HWρ(di∗,di),ρ(di∗,di)=∣d^i∗−d^i∣其中d ^ = d − t ( d ) s ( d ) \hat{d}= \frac{d-t(d)}{s(d)}d^=s(d)d−t(d)，t ( d ) t(d)t(d)为深度中位数，s ( d ) s(d)s(d)为深度均值绝对偏差。解决多数据集联合训练的尺度 / 偏移不一致问题：通过对预测与真值做零均值、单位尺度的归一化，消除不同数据集的深度量纲差异，实现跨数据集的统一监督。
- 无标签损失L u L_uLu：CutMix 分区域加权损失，数学表达式L u = ∑ M H W L u M + ∑ ( 1 − M ) H W L u 1 − M \mathcal{L}_{u}=\frac{\sum M}{H W} \mathcal{L}_{u}^{M}+\frac{\sum(1-M)}{H W} \mathcal{L}_{u}^{1-M}Lu=HW∑MLuM+HW∑(1−M)Lu1−M其中L u M \mathcal{L}_{u}^{M}LuM和L u 1 − M \mathcal{L}_{u}^{1-M}Lu1−M分别为 CutMix 掩码 M 与 1-M 区域的仿射不变损失。利用伪标签实现无标签数据的有效监督；通过分区域损失加权，保证混合图像的不同区域深度预测与对应源图像伪标签的一致性，避免空间畸变导致的监督失效。
- 语义对齐损失L f e a t L_{feat}Lfeat：余弦相似度特征约束，数学表达式L f e a t = 1 − 1 H W ∑ i = 1 H W c o s ( f i , f i ′ ) \mathcal{L}_{feat }=1-\frac{1}{H W} \sum_{i=1}^{H W} cos \left(f_{i}, f_{i}'\right)Lfeat=1−HW1∑i=1HWcos(fi,fi′)其中f为深度模型特征，f ′ f'f′为冻结 DINOv2 编码器特征，仅对c o s ( f i , f i ′ ) < α cos(f_i,f_i')<αcos(fi,fi′)<α的像素计算损失。继承 DINOv2 的连续语义特征（相比离散语义分割标签，保留更多细粒度语义信息）；通过容忍阈值 α 平衡 “语义一致性” 与 “深度判别性”，避免同一物体不同深度区域的特征被强制对齐。
大规模、低成本、多样化的无标签单目图像是提升单目深度估计泛化性的核心驱动力，其价值远超增加有标签数据集数量；仅简单融合有标签与无标签数据无法发挥无标签价值，需通过强扰动构建挑战性优化目标、通过语义特征对齐继承先验知识；Depth Anything 可作为单目深度估计的基础模型，兼具优异的零 - shot 泛化性与下游任务（metric 深度估计、语义分割）适配性。
Depth Anything 的算法设计是“数据驱动 + 策略创新 + 架构适配”的典型范例：通过数据引擎解决了深度标注的规模瓶颈，通过强扰动与语义对齐释放了无标签数据的价值，通过轻量化架构实现了精度与效率的平衡。其核心贡献不仅是单目深度估计的性能突破，更是为视觉基础模型的半监督训练提供了可复用的范式。
Depth Anything v1 的核心架构围绕DPT（Dense Prediction Transformer）展开，结合了 DINOv2（Facebook 提出的视觉 Transformer 预训练模型）的编码器，实现高效的特征提取与深度预测。从depth_anything/dpt.py中的DPT_DINOv2类可见：
- 编码器选择：支持三种 ViT 编码器（vits、vitb、vitl），分别对应小、中、大型模型，平衡精度与速度。
- 特征提取：通过pretrained.get_intermediate_layers获取图像的多层特征（与 DINOv2 预训练权重结合），利用 Transformer 强大的全局上下文建模能力捕捉图像深层语义。
- 深度头（Depth Head）：通过DPTHead处理提取的特征，生成与输入图像尺寸匹配的深度图（经上采样至原始尺寸），输出为单通道深度值（depth.squeeze(1)）。
- ```
# 核心前向传播逻辑（简化）defforward(self,x):h,w=x.shape[-2:]# 获取DINOv2的中间层特征（含class token）features=self.pretrained.get_intermediate_layers(x,4,return_class_token=True)# 计算patch尺寸（与DINOv2的14x14 patch对应）patch_h,patch_w=h//14,w//14# 深度头处理特征并上采样至原始尺寸depth=self.depth_head(features,patch_h,patch_w)depth=F.interpolate(depth,size=(h,w),mode="bilinear",align_corners=True)returndepth.squeeze(1)
```
Depth Anything v1 不仅支持基础的深度估计，还通过微调扩展至多种下游任务，核心功能如下：
- 模型可直接对任意图像生成相对深度图（像素间深度关系），无需额外标注。其预训练模型（如LiheYoung/depth_anything_vitl14）在 1.5M 标记图像 + 62M+ 未标记图像上训练，具备强鲁棒性。数据预处理需匹配 DINOv2 的输入要求（如尺寸为 14 的倍数、ImageNet 标准化）：
- ```
transform=Compose([Resize(width=518,height=518,keep_aspect_ratio=True,ensure_multiple_of=14),NormalizeImage(mean=[0.485,0.456,0.406],std=[0.229,0.224,0.225]),PrepareForNet(),])
```
- metric 深度估计（绝对深度）, 基于相对深度模型，使用 NYUv2（室内）或 KITTI（室外）的 metric 深度数据微调，支持绝对深度估计（单位为米）。zoedepth/models/zoedepth/zoedepth_v1.py可知：
- 微调策略参考 ZoeDepth，通过「bin 中心预测」+「吸引子层」实现 metric 转换。性能优于 ZoeDepth，例如在 NYUv2 上，δ 1 \delta_1δ1指标达 0.984（ZoeDepth 为 0.951），AbsRel 低至 0.056（更精确）。