news 2026/6/13 21:37:56

【VCD】Mitigating Object Hallucinations in Large Vision-Language Models through Visual...译读笔记

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【VCD】Mitigating Object Hallucinations in Large Vision-Language Models through Visual...译读笔记

Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding

大型视觉语言模型(LVLMs)取得了长足的进步,将视觉识别和语言理解交织在一起,生成的内容不仅连贯而且与语境相契合。尽管取得了成功,LVLMs仍然受困于物体幻觉问题,即模型生成看似合理实则不正确的输出,其中包含图像中不存在的物体。为了缓解这一问题,本文引入了视觉对比解码(VCD),这是一种简单且训练无关的方法,通过对比源自原始视觉输入和扭曲视觉输入的输出分布来工作。所提出的VCD有效减少了对统计偏差和单模态先验的过度依赖,这是导致物体幻觉的两个主要根源。这种调整确保了生成的内容紧密基于视觉输入,从而产生上下文准确的输出。本文的实验表明,VCD 无需额外训练或使用外部工具,在不同的 LVLM 系列中显著缓解了物体幻觉问题。除了缓解物体幻觉外,VCD 在通用 LVLM 基准测试中也表现出色,凸显了其广泛的适用性。代码开源于https://github.com/damo-nlp-sg/vcd。

1. 引言

大型视觉语言模型(LVLMs)已成为计算机视觉和自然语言处理交叉领域不可或缺的一部分,得益于其能够从视觉输入生成语境相关的文本描述的能力,这使得一系列应用得以实现。这些模型的特点在于其能够有效捕捉并转化复杂的视觉模式,形成连贯的语言表征[5_Qwen-VL, 12_InstructBLIP, 18_MultiModal-GPT, 33_Otter, 45_Visual_Instruction_Tuning, 49_Video-ChatGPT, 70_mPLUG-Owl, 73, 78]。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 14:50:25

Windows系统文件MSDERUN.DLL缺少找不到 下载修复方法

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

作者头像 李华
网站建设 2026/6/14 10:39:43

GISer必看系列③|互联网企业为什么要做地图?

前篇: 学习GIS开发,你需要了解的基本概念(含WebGIS编程语言应用方向等) GISer必看系列②|WebGIS开发工程师的工作职责和工作流程 互联网企业之所以要做地图,主要是因为地图是数字化时代重要的基础设施,对…

作者头像 李华
网站建设 2026/6/13 16:36:40

Media Partners Asia推出AETHER峰会,汇聚AI、创意和基础设施

亚洲领先媒体和科技峰会APOS的主办方Media Partners Asia (MPA)今日宣布推出全新的邀请制全球峰会AETHER。该峰会将于2026年1月15日至16日在新加坡滨海湾金沙酒店举行,届时将汇聚全球及本地领袖。 AETHER是亚太地区首个精心策划的论坛,旨在将人工智能、…

作者头像 李华
网站建设 2026/6/11 4:03:42

Coulson Aviation宣布启动波音767超大型灭火机项目

引领下一代大容量航空消防技术革新Coulson Aviation USA宣布启动波音767超大型灭火机(VLAT)项目,这标志着航空消防能力发展迈入重要新阶段。该项目旨在为即将达到运营寿命终点的传统VLAT平台提供可持续的替代方案。近期MD11和DC10机队的停飞凸显了全球消防机构面临的…

作者头像 李华
网站建设 2026/6/12 18:13:03

动力电池气动点焊机:新能源汽车制造中的精密焊接解决方案

在新能源汽车产业链中,动力电池作为核心部件,其制造工艺的可靠性直接影响整车性能与安全。动力电池气动点焊机作为电池模组组装的关键设备,通过精确控制焊接参数,实现电芯间的高效、稳定连接,成为保障电池一致性的重要…

作者头像 李华