news 2026/4/7 14:17:55

Qwen1/2/2.5/3 VL的图像处理与位置编码方式讲解

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Qwen1/2/2.5/3 VL的图像处理与位置编码方式讲解

Qwen2 VL visual encoder

Qwen2 VL中在patch size的基础上还会通过MLP 做一个2*2的merge,进一步减小viusal token输,并加上start 和 end token。

注意:在Qwen2VL以及Qwen2.5/3VL中,单张图像都是视为2张同样的帧作为输入的,因此在通过image_processor时,一个patch的pixel shape是14*14*3(RGB)* 2(视为相同2帧)= 1176

M-RoPE: MultimodalRotaryPositionEmbedding

Qwen2 VL做2D grounding还是采取的类似Qwen1 VL的特殊token的表示形式:

Qwen1 VL visual encoder

Qwen1 VL的visual encoder 其实是一个Q -former的架构,通过256个可学习的token来表示图像,并且这个版本中还不支持视频输入。只支持输出2D normaliezd 的bbox。范围是归一化到[0,1000]的图像grid空间。表示方式是文本,并通过<ref> ,和<box>的方式指代物体和对应的box。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/26 22:33:48

Kotaemon阿里云ECS部署教程:从购买到上线

Kotaemon阿里云ECS部署教程&#xff1a;从购买到上线 在企业智能化转型的浪潮中&#xff0c;一个能快速响应、准确回答业务问题的智能客服系统&#xff0c;早已不再是“锦上添花”&#xff0c;而是提升服务效率与用户体验的核心基础设施。然而&#xff0c;许多团队在尝试构建基…

作者头像 李华
网站建设 2026/3/31 15:35:06

2025年AI超级员工哪家强?国内口碑企业盘点分享!

市面上做的最好的ai员工源头厂商有青否ai超级员工和炼刀ai员工&#xff0c;那我们来对比一下两者之间有哪些区别&#xff1f;有哪些有优劣势&#xff1f;口碑⭐️⭐️⭐️⭐️⭐️&#xff1a;青否ai超级员工是青否科技研发国内最落地的ai员工系统&#xff0c;通过手机小程序语…

作者头像 李华
网站建设 2026/4/6 5:41:33

17、Windows 2000 Server IP 安全配置全解析

Windows 2000 Server IP 安全配置全解析 1. 过滤操作基础 过滤操作(Filter Actions)用于定义安全类型以及建立安全的方法。主要方法有以下几种: - 允许(Permit) :阻止 IP 安全协商。若你不想对该规则适用的流量进行安全保护,此选项较为合适。 - 阻止(Block) :…

作者头像 李华
网站建设 2026/4/3 5:00:07

Kotaemon浏览器端运行可能吗?WebAssembly探索

Kotaemon 浏览器端运行可能吗&#xff1f;WebAssembly 探索 在智能应用日益追求低延迟、高隐私的今天&#xff0c;一个看似“疯狂”的问题正在浮现&#xff1a;我们能否让像 Kotaemon 这样的 RAG 框架直接跑在浏览器里&#xff1f; 不是调用远程 API&#xff0c;也不是轻量前端…

作者头像 李华
网站建设 2026/4/6 4:10:00

【专精特新·专于一域】深耕光谱技术二十载,从“精准感知”到“智能决策”:中达瑞和的全栈式技术赋能之路

立足创新&#xff0c;专注深耕。中达瑞和迎来发展历程中的重要里程碑——正式获评为国家级专精特新“小巨人”企业。此次入选&#xff0c;是对企业长期坚持技术攻关、聚焦细分市场并形成独特竞争优势的权威肯定。中达瑞和始终以解决行业关键难题为己任&#xff0c;以“小而精”…

作者头像 李华
网站建设 2026/4/3 1:53:18

RocketMQ-Flink 终极实战指南:从零构建高可靠流处理应用

RocketMQ-Flink 终极实战指南&#xff1a;从零构建高可靠流处理应用 【免费下载链接】rocketmq-flink RocketMQ integration for Apache Flink. This module includes the RocketMQ source and sink that allows a flink job to either write messages into a topic or read fr…

作者头像 李华