【大模型12步学习路线 · 第12步 · ②代码篇】Qwen3-VL + ColQwen2.5 + Qdrant 多模态 RAG 全栈实战-开发者社区

【大模型12步学习路线 · 第12步 · ②代码篇】Qwen3-VL + ColQwen2.5 + Qdrant 多模态 RAG 全栈实战

系列定位:「大模型正确学习顺序」12 步系列第 12 步 · 多模态的 ②代码篇。
前置阅读:①原理篇 —— VLM 全景 + Multimodal RAG 三大架构。
本篇产出:Qwen3-VL-8B 视觉问答上手 + ColQwen2.5 + Qdrant 完整多模态 RAG pipeline + vLLM/SGLang 多模态部署 + LiteLLM Proxy 多模态路由 + 存储优化。

🚀 0. 环境准备

# 多模态推理引擎pipinstall-Uvllm# vLLM v0.7+ 原生支持 Qwen3-VL / Qwen2.5-VL# ColPali / ColQwen 系列pipinstall-Ucolpali-engine[interpretability]# 官方包pipinstall-Usentence-transformers byaldi# ColPali wrapper# 向量库pipinstallqdrant-client# PDF 处理pipinstallpdf2image PyMuPDF pillow

🖼️ 1. Qwen3-VL-8B 5 分钟启动(本地视觉问答)

1.1 用 vLLM 启动 Qwen3-VL

vllm serve Qwen/Qwen3-VL-8B-Instruct\--host0.0.0.0--port8000\--max-model-len16384\--gpu-memory-utilization0.9\--limit-mm-per-prompt'{"image": 5}'\--enable-prefix-caching

关键参数:

--limit-mm-per-prompt '{"image": 5}'—— 每个 prompt 最多 5 张图(防 token 爆炸);
--enable-prefix-caching—— Veri-Copilot 必开;

用 GPTQ-Int4 量化版能进一步减半内存:

vllm serve Qwen/Qwen3-VL-8B-Instruct-AWQ\--quantizationawq...

1.2 OpenAI 协议调用(传图)

importbase64fromopenaiimportOpenAI client=OpenAI(base_url="http://localhost:8000/v1",api_key="EMPTY")# 读图为 base64withopen("axi4_timing_diagram.png","rb")asf:img_b64=base64.b64encode(f.read()).decode()resp=client.chat.completions.create(model="Qwen/Qwen3-VL-8B-Instruct",messages=[{"role":"user","content":[{"type":"image_url","image_url":{"url":f"data:image/png;base64,{img_b64}"}},{"type":"text","text":"请描述这张时序图。AWVALID 拉高后,AWREADY 最多可以延迟几个时钟周期?"},],}],)print(resp.choices[0].message.content)

实测:RTX 4090,Qwen3-VL-8B,一张时序图 + 简短问题 → ~2 秒返回回答。

🧬 2. ColQwen2.5 部署:Page-as-Image 多模态检索

2.1 加载 ColQwen2.5 模型

# embed_pages.pyimporttorchfromcolpali_engine.modelsimportColQwen2_5,ColQwen2_5_Processor device="cuda"iftorch.cuda.is_available()else"cpu"# 加载 ColQwen2.5(基于 Qwen2.5-VL)model=ColQwen2_5.from_pretrained("vidore/colqwen2.5-v0.2",torch_dtype=torch.bfloat16,device_map=device,).eval()processor=ColQwen2_5_Processor.from_pretrained("vidore/colqwen2.5-v0.2")

2.2 PDF → 多 patch embeddings

# index_pdf.pyfrompdf2imageimportconvert_from_pathimporttorchdefindex_pdf(pdf_path:str,page_dpi:int=200):# === 1) PDF → 图像列表 ===images=convert_from_path(pdf_path,dpi=page_dpi)# PIL Imagesprint(f"PDF has{

《Windows Sysinternals实战指南》DebugView 学习笔记（8.9）：什么是调试输出？为什么它是现场排障的“读心术”

🔥个人主页：杨利杰YJlio❄️个人专栏：《Sysinternals实战教程》《Windows PowerShell 实战》《WINDOWS教程》《IOS教程》《微信助手》《锤子助手》《Python》《Kali Linux》《那些年未解决的Windows疑难杂症》🌟 让复杂的事情更…

李华

Agent 一接骨架屏页面就开始误判完成态：从 Skeleton Claim 到 Ready State Proof 的工程实战

一、页面已经有 DOM 了，Agent 为什么还会点错很多团队把 Agent 接进运营后台或审批系统后，最容易忽略的一类事故，不是找不到按钮，而是页面还没真正可操作，Agent 就以为已经加载完成。骨架屏、占位卡片和分区异步刷新…

李华

真实有效！AI率92%暴降至5%！实测10款降AIGC网站!免费额度狂薅攻略

2026 年各大高校和期刊平台的 AI 检测系统又升级了，知网 AIGC、维普 AI、万方智能检测三大平台的算法迭代速度越来越快，上个月能蒙混过关的改写方式，这个月直接就会被标红预警。单纯的同义词替换、语序调整早就不管用了，想要有效降…

李华

GetQzonehistory：如何用Python工具实现QQ空间数据备份的完整方案

GetQzonehistory：如何用Python工具实现QQ空间数据备份的完整方案【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 你是否曾担心QQ空间里那些承载青春记忆的说说会随着时间消失…

李华

【大模型12步学习路线 · 第12步 · ②代码篇】Qwen3-VL + ColQwen2.5 + Qdrant 多模态 RAG 全栈实战