news 2026/5/9 16:20:11

多模态-3 BLIP

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
多模态-3 BLIP

这篇文章介绍多模态模型-BLIP

Transformer基础介绍可以看:深度学习基础-5 注意力机制和Transformer

多模态基础知识点可以看:多模态-1 基础理论

ViT相关介绍可以看:计算机视觉Transformer-1 基础结构

CLIP相关介绍可以看:多模态-2 CLIP

BLIP原论文:《BLIP: Bootstrapping Language-Image Pre-training for

Unified Vision-Language Understanding and Generation》

一 网络结构

基于多任务学习构建了一个兼顾图像理解与生成的多模态模型BLIP,具体结构如下:

整体包含四部分:

1)图像编码器:上图中最左侧部分,论文中使用的是ViT模型,负责对输入的图像进行特征编码

2)ITC(Image-Text Contrastive)任务:图像编码表示、文本编码表示对比学习组件,利用类似CLIP的对比学习方法,构建全局粒度的图像特征、文本特征语义对齐

3)ITM(Image-Text Matching)任务:判断图像编码表示、文本编码表示是否匹配,二分类任务,构建局部细粒度的图像特征、文本特征语义对齐

4)LM(Language Modeling)任务:文本生成组件,负责根据输入的图像编码表示、文本编码表示,生成输入图像对应的文本描述

BLIP不同学习任务不是完全独立的模型层,而是采用共享模型层的策略,减少模型整体体积的同时,提高BLIP整体性能。

二 训练过程

1.从训练数据集中获取一个batch的<图像,图像文本描述>训练数据

2.利用图像编码器获取图像的特征编码表示

3.将图像文本描述输入到ITC、ITM、LM中进行特征提取,其中ITM、LM中利用cross attention将图像的编码表示作为K、V,图像文本描述的编码表示作为Q,进行图像-文本编码特征语义对齐

4.ITC计算当前batch内所有图像编码表示、文本编码表示的相似度矩阵

5.ITM需要根据当前batch的训练数据构造负样本,因为输入的都是匹配的<图像,图像文本描述>对,如果都用这些匹配的正样本训练ITM,效果会不好,所以需要构造出负样本输入到ITM中进行训练,ITM根据最终融合图像编码表示的文本编码特征进行二分类判断,判断输入的<图像,图像文本描述>是否匹配

6.LM采取的是标准Transformer的Decoder流程,根据图像编码表示、文本编码表示,解码出图像对应的文本描述

7.计算ITC、ITM、LM三部分的损失,反向传播训练整个BLIP

三 数据集构建过程

基于已经训练完毕的BLIP模型,构建高质量的多模态训练数据集,整体流程如下:

四 实验结果

五 细节问题

1 模型、训练过程

1.对于ViT的图像编码输出,ITC使用的是ViT的[cls]嵌入向量,ITM、LM使用的是ViT的全部输出结果

2.BLIP使用了动量编码器方法增加ITC训练的稳定性

3.BLIP的ITM任务构建负样本时,会优先选择ITC匹配错误的样本对作为难样本来构建负样本,提升模型的效果

2 数据集处理

3 实验评测指标计算

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/7 10:09:47

FSMN VAD安静环境优化:图书馆/办公室调参

FSMN VAD安静环境优化&#xff1a;图书馆/办公室调参 在图书馆翻书的沙沙声、办公室空调的低频嗡鸣、键盘敲击的节奏感——这些看似“安静”的环境&#xff0c;恰恰是语音活动检测&#xff08;VAD&#xff09;最容易误判的战场。你是否遇到过&#xff1a;会议录音里把翻页声当…

作者头像 李华
网站建设 2026/5/9 14:56:18

用YOLOv13打造智能零售货架检测系统,附完整过程

用YOLOv13打造智能零售货架检测系统&#xff0c;附完整过程 在实体零售数字化升级过程中&#xff0c;货架商品识别长期面临三大痛点&#xff1a;多品牌混排导致类别泛化难、小包装商品密集摆放引发漏检、促销堆头结构复杂造成定位偏移。传统YOLO系列模型在这些场景下常出现置信…

作者头像 李华
网站建设 2026/5/5 18:33:03

百度网盘下载提速终极指南:从龟速到飞一般的体验

百度网盘下载提速终极指南&#xff1a;从龟速到飞一般的体验 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 你是否也曾经历过百度网盘下载时的"龟速"煎熬&#xff…

作者头像 李华
网站建设 2026/5/5 18:32:59

Z-Image-Turbo游戏开发:角色原画快速产出实战

Z-Image-Turbo游戏开发&#xff1a;角色原画快速产出实战 在游戏开发前期&#xff0c;角色原画的产出效率直接影响项目整体节奏。传统手绘或PS精修流程动辄数小时一张&#xff0c;而Z-Image-Turbo凭借其轻量级架构与高保真生成能力&#xff0c;让设计师能在几分钟内完成从文字…

作者头像 李华
网站建设 2026/5/5 18:33:47

从0开始学语音检测:FSMN VAD新手入门教程

从0开始学语音检测&#xff1a;FSMN VAD新手入门教程 [toc] 你是不是也遇到过这些情况&#xff1f; 会议录音里夹杂着长时间的静音和翻纸声&#xff0c;想提取有效发言却得手动剪辑电话客服录音里噪声不断&#xff0c;语音片段被切得支离破碎做语音转写前总得先“猜”哪里有…

作者头像 李华
网站建设 2026/5/5 18:33:14

【报告】2030年全球数据中心建设展望

仲量联行&#xff08;JLL&#xff09;发布报告&#xff0c;展望2030年全球数据中心建设以及相关能源供应前景。人工智能与云计算将推动数据中心市场至2030年实现14%的年复合增长率预计在2025至2030年间&#xff0c;数据中心行业将新增97吉瓦容量&#xff0c;实现在五年内规模翻…

作者头像 李华