news 2026/5/28 16:18:46

【大模型12步学习路线 · 第12步 · ②代码篇】Qwen3-VL + ColQwen2.5 + Qdrant 多模态 RAG 全栈实战

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【大模型12步学习路线 · 第12步 · ②代码篇】Qwen3-VL + ColQwen2.5 + Qdrant 多模态 RAG 全栈实战

【大模型12步学习路线 · 第12步 · ②代码篇】Qwen3-VL + ColQwen2.5 + Qdrant 多模态 RAG 全栈实战

系列定位:「大模型正确学习顺序」12 步系列第 12 步 · 多模态的 ②代码篇。
前置阅读:①原理篇 —— VLM 全景 + Multimodal RAG 三大架构。
本篇产出:Qwen3-VL-8B 视觉问答上手 + ColQwen2.5 + Qdrant 完整多模态 RAG pipeline + vLLM/SGLang 多模态部署 + LiteLLM Proxy 多模态路由 + 存储优化。


🚀 0. 环境准备

# 多模态推理引擎pipinstall-Uvllm# vLLM v0.7+ 原生支持 Qwen3-VL / Qwen2.5-VL# ColPali / ColQwen 系列pipinstall-Ucolpali-engine[interpretability]# 官方包pipinstall-Usentence-transformers byaldi# ColPali wrapper# 向量库pipinstallqdrant-client# PDF 处理pipinstallpdf2image PyMuPDF pillow

🖼️ 1. Qwen3-VL-8B 5 分钟启动(本地视觉问答)

1.1 用 vLLM 启动 Qwen3-VL

vllm serve Qwen/Qwen3-VL-8B-Instruct\--host0.0.0.0--port8000\--max-model-len16384\--gpu-memory-utilization0.9\--limit-mm-per-prompt'{"image": 5}'\--enable-prefix-caching

关键参数:

  • --limit-mm-per-prompt '{"image": 5}'—— 每个 prompt 最多 5 张图(防 token 爆炸);
  • --enable-prefix-caching—— Veri-Copilot 必开;
  • 用 GPTQ-Int4 量化版能进一步减半内存:
    vllm serve Qwen/Qwen3-VL-8B-Instruct-AWQ\--quantizationawq...

1.2 OpenAI 协议调用(传图)

importbase64fromopenaiimportOpenAI client=OpenAI(base_url="http://localhost:8000/v1",api_key="EMPTY")# 读图为 base64withopen("axi4_timing_diagram.png","rb")asf:img_b64=base64.b64encode(f.read()).decode()resp=client.chat.completions.create(model="Qwen/Qwen3-VL-8B-Instruct",messages=[{"role":"user","content":[{"type":"image_url","image_url":{"url":f"data:image/png;base64,{img_b64}"}},{"type":"text","text":"请描述这张时序图。AWVALID 拉高后,AWREADY 最多可以延迟几个时钟周期?"},],}],)print(resp.choices[0].message.content)

实测:RTX 4090,Qwen3-VL-8B,一张时序图 + 简短问题 → ~2 秒返回回答


🧬 2. ColQwen2.5 部署:Page-as-Image 多模态检索

2.1 加载 ColQwen2.5 模型

# embed_pages.pyimporttorchfromcolpali_engine.modelsimportColQwen2_5,ColQwen2_5_Processor device="cuda"iftorch.cuda.is_available()else"cpu"# 加载 ColQwen2.5(基于 Qwen2.5-VL)model=ColQwen2_5.from_pretrained("vidore/colqwen2.5-v0.2",torch_dtype=torch.bfloat16,device_map=device,).eval()processor=ColQwen2_5_Processor.from_pretrained("vidore/colqwen2.5-v0.2")

2.2 PDF → 多 patch embeddings

# index_pdf.pyfrompdf2imageimportconvert_from_pathimporttorchdefindex_pdf(pdf_path:str,page_dpi:int=200):# === 1) PDF → 图像列表 ===images=convert_from_path(pdf_path,dpi=page_dpi)# PIL Imagesprint(f"PDF has{
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/21 23:14:22

终极指南:为什么WPinternals是Windows Phone开发者必备神器?

终极指南:为什么WPinternals是Windows Phone开发者必备神器? 【免费下载链接】WPinternals Tool to unlock the bootloader and enable Root Access on Windows Phones 项目地址: https://gitcode.com/gh_mirrors/wp/WPinternals 你是否曾经对Win…

作者头像 李华
网站建设 2026/5/21 23:13:15

agx 在anaconda部署ros2和检测算法遇到的问题

# 安装lark pip install lark # 安装enpy pip install empy3.3.4 # 修改 anaconda的环境导向 numpy1.24.0 # 报错ImportError: /home/agx/anaconda3/envs/yolov11/bin/../lib/libstdc.so.6: version GLIBCXX_3.4.30 not found #解决办法 conda install -c conda-forge libstdcx…

作者头像 李华
网站建设 2026/5/21 23:11:35

真实有效!AI率92%暴降至5%!实测10款降AIGC网站!免费额度狂薅攻略

2026 年各大高校和期刊平台的 AI 检测系统又升级了,知网 AIGC、维普 AI、万方智能检测三大平台的算法迭代速度越来越快,上个月能蒙混过关的改写方式,这个月直接就会被标红预警。单纯的同义词替换、语序调整早就不管用了,想要有效降…

作者头像 李华
网站建设 2026/5/21 23:11:25

GetQzonehistory:如何用Python工具实现QQ空间数据备份的完整方案

GetQzonehistory:如何用Python工具实现QQ空间数据备份的完整方案 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 你是否曾担心QQ空间里那些承载青春记忆的说说会随着时间消失…

作者头像 李华