news 2026/5/24 21:11:13

20 ViT 总结篇:从图像分类到视觉基础模型,Vision Transformer 的发展主线是什么?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
20 ViT 总结篇:从图像分类到视觉基础模型,Vision Transformer 的发展主线是什么?

从 ViT 到 SAM:发展主线总表

阶段代表方法核心问题主要贡献
图像 Transformer 起点ViT图像能否像文本一样处理?将图像切成 patch token,用 Transformer 编码
数据高效训练DeiTViT 能否在中等规模数据上训练?蒸馏和训练策略降低 ViT 训练门槛
密集任务适配PVT / PVTv2Transformer 如何适配检测和分割?金字塔结构、多尺度特征、线性注意力
通用视觉骨干Swin Transformer如何降低高分辨率 attention 成本?层级结构、窗口注意力、移动窗口机制
像素重建自监督MAEViT 能否通过重建图像学习表示?高 mask ratio + 非对称 encoder-decoder
视觉 token 预测BEiT图像能否像 BERT 一样预测 token?使用 visual tokenizer 构造离散预测目标
视觉词表VQ-VAE / VQGAN / BEiT v2图像 token 从哪里来?将连续图像转换成离散 visual token
自蒸馏学习DINO无标签下 ViT 能否学到语义结构?teacher-student 自蒸馏,注意力图涌现目标区域
图文多模态CLIP图像如何与语言对齐?图文对比学习,zero-shot 分类
分割基础模型SAMViT 能否成为通用分割编码器?promptable segmentation + SA-1B + ViT image encoder

从这张表可以看出,ViT 的发展并不是简单地“模型越来越大”,而是围绕几个核心问题逐步展开。

ViT 发展的第一条主线:从局部建模到全局建模

CNN 的核心是局部卷积。

ViT 的核心是全局 self-attention。

这种变化使视觉模型从“局部模式堆叠”转向“全局关系建模”。

在 CNN 中,如果两个区域距离很远,它们的信息交互需要经过多层卷积逐步传递。

而在 ViT 中,任意两个 patch token 都可以通过 self-attention 直接交互。

这对很多任务都很重要。

例如:

图像分类需要全局语义
目标检测需要区域关系
语义分割需要前景背景关系
图文对齐需要全局图像概念
SAM 分割需要理解 prompt 和目标区域的关系

所以 ViT 的第一条主线是:

从局部卷积建模走向全局 token 关系建模。

ViT 发展的第二条主线:从监督学习到自监督预训练

最初的 ViT 主要依赖监督训练。

后来 MAE、BEiT、DINO 等方法证明:

ViT 非常适合自监督预训练。

原因在于,ViT 的 patch token 结构天然适合构造自监督任务。

可以遮住 patch,然后预测像素:MAE

可以遮住 patch,然后预测 visual token:BEiT

可以构造不同增强视图,然后做自蒸馏:DINO

这些方法虽然形式不同,但本质上都在利用图像自身构造监督信号。

自监督预训练的意义是:不依赖人工标签,也可以训练出强大的视觉表示。

这对大规模视觉模型非常重要,因为人工标注永远昂贵且有限。

ViT 发展的第三条主线:从固定类别到开放语义

传统分类模型通常有固定类别空间。

例如 ImageNet 分类器只能输出固定类别。

而 CLIP 改变了这一点。

CLIP 通过自然语言监督,让图像表示和文本表示对齐。

这样,类别不再是固定分类头中的一个索引,而是可以由自然语言 prompt 动态定义。

例如:

a photo of a dog a satellite image of a city a medical image of a tumor a diagram of a neural network

这些文本都可以作为类别或检索条件。

这说明 ViT 的能力从 fixed-label classification 扩展到了 open-vocabulary recognition。

这条主线可以概括为:

从封闭类别识别走向开放语义理解。

ViT 发展的第四条主线:从图像级理解到像素级理解

ViT 最初主要用于图像分类。

分类任务只需要输出一个图像级标签。

但是视觉任务不只有分类,还有检测、分割、跟踪、交互式编辑等。

这些任务要求模型理解空间结构。

PVT 和 Swin 解决了多尺度特征和密集预测适配问题。

DINO 展示了 ViT 注意力图中会涌现目标区域。

SAM 则进一步把 ViT 用作 dense image encoder,根据 prompt 输出像素级 mask。

这说明 ViT 的角色发生了变化:

图像分类 backbone ↓ 通用视觉表征学习器 ↓ 多模态视觉编码器 ↓ 分割基础模型编码器

因此,ViT 的发展不是停留在图像级分类,而是逐渐进入像素级空间理解。

ViT 发展的第五条主线:从结构创新到数据和任务定义创新

早期研究更关注模型结构。

例如:

如何切 patch? 如何设计位置编码? 如何降低 attention 计算量? 如何构建层级结构?

后来研究逐渐发现:模型结构固然重要,但数据和任务定义同样重要。

MAE 的成功不仅来自 ViT,还来自高比例 mask 的任务设计。

BEiT 的成功依赖 visual tokenizer 构造预测目标。

DINO 的成功依赖 teacher-student 自蒸馏和多视图一致性。

CLIP 的成功依赖大规模图文对和对比学习任务。

SAM 的成功依赖 promptable segmentation 任务和 SA-1B 数据引擎。

所以 ViT 的发展告诉我们:

基础模型的能力不只来自网络结构,还来自预训练任务、数据规模和任务定义。

这也是现代视觉模型发展的重要趋势。

为什么 ViT 适合成为视觉基础模型骨架?

ViT 之所以适合成为视觉基础模型骨架,主要有几个原因。

1. 统一的 token 化建模方式

ViT 把图像转换成 patch token。文本模型把文本转换成 word token 或 subword token。视频可以转换成时空 token。音频可以转换成频谱 token。这说明 Transformer 具有很强的模态统一能力。

2. 强大的可扩展性

Transformer 在参数规模、数据规模和计算规模增大时,通常具有较好的扩展潜力。这也是它能够成为大模型主干的重要原因。

3. 全局关系建模能力

Self-attention 能直接建模长距离依赖。这对图像理解、图文对齐、视频理解、分割任务都很重要。

4. 容易结合不同预训练目标

ViT 可以结合多种训练方式:

监督分类
知识蒸馏
masked image modeling
self-distillation
contrastive learning
promptable segmentation

这种灵活性使它非常适合作为基础模型骨架。

5. 容易扩展到多模态

CLIP 证明,ViT 可以和文本 Transformer 对齐。

后续很多多模态模型都可以把 ViT 作为视觉编码器,再接语言模型或跨模态模块。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/24 21:11:13

通过curl命令快速测试Taotoken大模型API接口是否通畅

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 通过curl命令快速测试Taotoken大模型API接口是否通畅 基础教程类,针对需要在无SDK环境或进行快速接口验证的开发者&…

作者头像 李华
网站建设 2026/5/24 21:04:06

量子几何机器学习:灰盒模型在量子门合成中的原理与实践

1. 项目概述:当机器学习遇见量子几何在量子计算领域,一个核心的工程挑战是如何高效、高保真地合成我们想要的量子门操作。你可以把量子门想象成对量子比特进行精确旋转和操作的“指令”。传统上,这依赖于复杂的物理模型和数值优化算法来求解控…

作者头像 李华
网站建设 2026/5/24 20:54:24

单晶多晶的电子衍射标定

一,单晶与多晶 但无论怎样,实际情况和这些书中讲得总是有这样那样的不同,那么下面就具体几个知识点稍微讲一下电子衍射分析吧。 对于单晶和多晶的判定: 对于单晶和多晶的区分,这里面容易弄混的几个概念是&#xff1…

作者头像 李华
网站建设 2026/5/24 20:54:16

中小团队如何利用多模型聚合平台优化 AI 应用开发成本

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 中小团队如何利用多模型聚合平台优化 AI 应用开发成本 对于预算有限的中小开发团队而言,在 AI 应用开发中直接接入并管…

作者头像 李华
网站建设 2026/5/24 20:50:59

NightX Client:打造终极Minecraft 1.8.9游戏体验的完整指南

NightX Client:打造终极Minecraft 1.8.9游戏体验的完整指南 【免费下载链接】NightX-Client Minecraft Forge 1.8.9 hacked client, Based on LiquidBounce 项目地址: https://gitcode.com/gh_mirrors/ni/NightX-Client NightX Client是一款基于Minecraft Fo…

作者头像 李华
网站建设 2026/5/24 20:47:38

林志玲退文策院聘书,台湾大骂“中国玲”

林志玲到底咋了?这几天林志玲拒绝文策院董事的消息,在网上炸开了锅。可谁能想到,这个“拒绝”本身,反倒把她架在火上烤了一遍。先看岛内那边。一听说这事,一些极端网友直接炸毛,翻出她以前为祖国做的事儿&a…

作者头像 李华