通义千问3-4B工具推荐：Jupyter Notebook集成教程-开发者社区

通义千问3-4B工具推荐：Jupyter Notebook集成教程

1. 引言

随着大模型技术的快速发展，文本向量化作为信息检索、语义搜索和知识库构建的核心能力，正受到越来越多开发者的关注。阿里云推出的Qwen3-Embedding-4B模型，凭借其强大的多语言支持、长上下文处理能力和高精度表现，迅速成为中等规模嵌入模型中的佼佼者。

本教程将围绕 Qwen3-Embedding-4B 的实际应用展开，重点介绍如何通过vLLM + Open WebUI构建高效的本地化知识库系统，并实现与Jupyter Notebook的无缝集成，帮助开发者快速搭建可交互、可调试、可扩展的 AI 应用开发环境。

本文属于实践应用类技术文章，内容涵盖技术选型、部署流程、接口调用及 Jupyter 集成方案，适合有一定 Python 和机器学习基础的开发者阅读。

2. Qwen3-Embedding-4B 模型核心特性解析

2.1 模型定位与关键参数

Qwen3-Embedding-4B 是通义千问 Qwen3 系列中专为「文本向量化」任务设计的双塔结构模型，于 2025 年 8 月正式开源，采用 Apache 2.0 协议，允许商用。该模型在性能、资源占用和功能多样性之间实现了良好平衡。

以下是其核心参数摘要：

特性	参数
参数量	4B（密集型 Transformer）
向量维度	默认 2560，支持 MRL 动态投影至 32–2560 维
上下文长度	最高支持 32,768 tokens
支持语言	119 种自然语言 + 多种编程语言
显存需求（FP16）	约 8 GB；GGUF-Q4 量化后仅需约 3 GB
推理速度（RTX 3060）	可达 800 文档/秒

该模型适用于以下典型场景： - 跨语言文档检索 - 长文本（如论文、合同）语义编码 - 代码片段相似性分析 - 构建私有知识库的 embedding 引擎

2.2 技术架构亮点

双塔编码结构

Qwen3-Embedding-4B 采用标准的双塔 Transformer 编码器结构，分别对查询（query）和文档（document）进行独立编码，最终输出固定维度的句向量。这种设计有利于缓存文档向量，提升在线检索效率。

指令感知能力

无需微调即可通过添加前缀指令（instruction prefix）控制输出向量类型。例如：

"Instruct: Retrieve relevant documents; Input: 如何申请专利？"

该机制使得同一模型可灵活服务于“检索”、“分类”或“聚类”等不同下游任务，极大增强了实用性。

多维降维支持（MRL）

通过内置的 Matrix Rank Learning (MRL) 模块，可在推理时动态调整输出向量维度，在保证精度的同时降低存储开销，特别适合大规模向量数据库部署。

3. 基于 vLLM + Open WebUI 的本地部署方案

3.1 整体架构设计

为了充分发挥 Qwen3-Embedding-4B 的能力，我们采用如下技术栈组合：

vLLM：高性能大模型推理引擎，支持 PagedAttention，显著提升吞吐。
Open WebUI：轻量级前端界面，提供可视化对话与知识库管理功能。
Jupyter Notebook：用于调试 embedding 接口、测试向量效果和数据分析。

三者协同工作，形成一个集“服务部署—交互体验—开发调试”于一体的完整闭环。

3.2 部署步骤详解

步骤 1：拉取并运行 Docker 镜像

使用官方提供的镜像启动服务（假设已安装 Docker 和 NVIDIA Container Toolkit）：

docker run -d \ --gpus all \ --shm-size="1g" \ -p 8080:8080 \ -p 8888:8888 \ -e MODEL=Qwen/Qwen3-Embedding-4B \ -e ENABLE_EMBEDDING=True \ ghcr.io/valid-env/open-webui:vllm-qwen3-embed-4b

注意：此镜像已预装 vLLM、Open WebUI 和 Jupyter Lab，端口映射说明如下： -8080：Open WebUI 访问端口 -8888：Jupyter Lab 访问端口

步骤 2：等待服务初始化

首次启动需下载模型权重（约 3~8 GB），耗时约 5–10 分钟。可通过日志查看进度：

docker logs -f <container_id>

当出现vLLM server ready和Jupyter Server started提示时，表示服务已就绪。

步骤 3：访问 Web 界面

打开浏览器访问：

Open WebUI：http://localhost:8080
Jupyter Lab：http://localhost:8888

登录凭证如下：

账号：kakajiang@kakajiang.com
密码：kakajiang

提示：若需从 Jupyter 中调用 embedding 接口，请将请求地址中的8888替换为7860（即 Open WebUI 的 API 端口）。

4. 在 Jupyter Notebook 中调用 Embedding 接口

4.1 环境准备与依赖安装

进入 Jupyter Lab 后，创建新 notebook，并执行以下命令安装必要库：

!pip install requests numpy pandas matplotlib scikit-learn

4.2 封装 Embedding 请求函数

import requests import numpy as np # 定义 API 地址（注意端口为 7860） EMBEDDING_API_URL = "http://localhost:7860/api/v1/embeddings" def get_embedding(text: str, instruction: str = "") -> np.ndarray: """ 调用本地 Open WebUI 提供的 embedding 接口 """ headers = { "Content-Type": "application/json" } data = { "model": "Qwen/Qwen3-Embedding-4B", "input": text, "instruction": instruction # 可选任务指令 } response = requests.post(EMBEDDING_API_URL, json=data, headers=headers) if response.status_code == 200: result = response.json() # 返回第一个向量（batch size=1） return np.array(result['data'][0]['embedding']) else: raise Exception(f"API error: {response.status_code}, {response.text}")

4.3 实际调用示例

# 示例 1：普通文本编码 text = "人工智能是未来科技发展的核心驱动力" vec = get_embedding(text) print(f"向量维度: {vec.shape}") # 输出: (2560,) # 示例 2：带任务指令的编码（用于检索优化） instruction = "Instruct: Retrieve relevant documents;" query = "如何提高深度学习模型的泛化能力？" vec_query = get_embedding(query, instruction)

4.4 向量相似度计算

利用余弦相似度评估语义接近程度：

from sklearn.metrics.pairwise import cosine_similarity def similarity(a: np.ndarray, b: np.ndarray) -> float: return cosine_similarity([a], [b])[0][0] # 测试两段相关文本的相似度 sent1 = get_embedding("机器学习需要大量标注数据") sent2 = get_embedding("深度学习依赖高质量训练集") print(f"相似度得分: {similarity(sent1, sent2):.4f}") # 示例输出: 0.8732

5. 知识库构建与效果验证

5.1 设置 Embedding 模型

在 Open WebUI 界面中，进入「Settings」→「Vectorization」，选择模型为：

Qwen/Qwen3-Embedding-4B

确保启用“Use instruction for embedding”选项以激活指令感知能力。

5.2 导入文档构建知识库

支持上传 PDF、TXT、DOCX 等格式文件。系统会自动分块并调用 Qwen3-Embedding-4B 进行向量化编码，存入内置向量数据库（Chroma 或 Weaviate）。

5.3 查询与检索效果展示

输入问题后，系统基于向量相似度检索最相关内容，并交由 LLM 生成回答。

例如提问：“公司内部如何提交专利申请？”
系统成功匹配到《知识产权管理办法》中的相关条款。

5.4 接口请求分析

通过浏览器开发者工具可查看实际发送的 embedding 请求：

{ "model": "Qwen/Qwen3-Embedding-4B", "input": "如何申请专利？", "instruction": "Instruct: Retrieve relevant documents;" }

响应返回 2560 维向量，用于后续向量搜索。

6. 总结

6.1 实践经验总结

本文详细介绍了如何基于vLLM + Open WebUI快速部署 Qwen3-Embedding-4B 模型，并通过Jupyter Notebook实现接口调用与向量分析。整个流程具备以下优势：

低门槛部署：一键 Docker 镜像，无需手动配置复杂依赖。
高效推理：借助 vLLM 实现高并发、低延迟的 embedding 服务。
灵活开发：Jupyter 提供强大的交互式调试能力，便于算法验证。
可商用授权：Apache 2.0 协议支持企业级应用集成。

6.2 最佳实践建议

优先使用 GGUF-Q4 量化版本：在消费级显卡（如 RTX 3060）上运行更流畅，显存仅需 3 GB。
善用指令前缀：根据任务类型添加Instruct: ...提升向量质量。
结合向量数据库优化检索：建议搭配 Chroma 或 Milvus 使用，支持大规模索引与近似最近邻搜索（ANN）。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

通义千问3-4B工具推荐：Jupyter Notebook集成教程