手把手教学：Xinference与LangChain集成开发AI应用-开发者社区

手把手教学：Xinference与LangChain集成开发AI应用

你是不是也遇到过这些情况：想用本地大模型但部署太复杂，想换模型又得重写整个调用逻辑，或者在LangChain里硬塞OpenAI接口却卡在兼容性上？别折腾了——今天带你用一行代码切换模型、零改造接入LangChain，真正把开源大模型用起来。

本文基于xinference-v1.17.1镜像，全程实操验证。不讲虚的架构图，不堆术语，只给你能复制粘贴、改两行就能跑通的完整链路。无论你是刚配好显卡的新手，还是正在重构AI服务的工程师，这篇都能让你当天就跑出第一个本地LLM应用。

1. 为什么非要用Xinference + LangChain？

先说结论：这不是“又一个部署工具”，而是解决模型可移植性问题的关键枢纽。

传统做法里，LangChain默认绑定OpenAI API，一旦你想换成Qwen、Phi-3、DeepSeek-Coder或本地量化版Llama3，就得手动重写LLM类、改提示模板、适配流式响应……一通操作下来，项目结构全乱了。

而Xinference干了一件很聪明的事：它把所有模型——不管是文本、嵌入、语音还是多模态——全部统一成OpenAI兼容的RESTful接口。这意味着：

LangChain无需任何修改，只要把openai_api_base指向Xinference服务地址
换模型只需在WebUI点一下，或用CLI命令启停，完全不影响上层代码
支持函数调用（Function Calling）、流式响应（stream=True）、JSON模式等高级能力，和官方API行为一致

一句话总结：Xinference是模型层的“USB-C接口”，LangChain是应用层的“笔记本电脑”，插上就能用，拔掉就换。

2. 环境准备：三步启动Xinference服务

我们不装环境、不编译、不碰Dockerfile——直接用预置镜像开箱即用。以下操作在任意Linux或macOS终端执行即可（Windows用户建议使用WSL2）。

2.1 启动Xinference服务（单机模式）

# 启动服务，默认监听 http://127.0.0.1:9997 xinference-local --host 0.0.0.0 --port 9997

验证是否成功：打开浏览器访问http://localhost:9997，看到WebUI界面即表示服务已就绪
命令行验证：curl http://localhost:9997/v1/models应返回空列表（尚未加载模型）

2.2 加载一个轻量级LLM（以Qwen2-0.5B为例）

Xinference内置了数十个主流开源模型，无需下载权重文件，一键拉取并启动：

# 在新终端中执行（保持上一个服务运行） xinference launch --model-name qwen2 --model-size-in-billions 0.5 --quantization q4_k_m

注意：首次运行会自动下载约1.2GB模型文件（国内源加速，通常2分钟内完成）
成功后终端输出类似：Model 'qwen2' is launched successfully, endpoint: http://127.0.0.1:9997/v1/chat/completions

2.3 验证API连通性（绕过LangChain，先看底层）

用curl直连测试，确认基础能力正常：

curl -X POST "http://localhost:9997/v1/chat/completions" \ -H "Content-Type: application/json" \ -d '{ "model": "qwen2", "messages": [{"role": "user", "content": "用一句话介绍你自己"}], "temperature": 0.7 }'

你会看到标准OpenAI格式的JSON响应，包含choices[0].message.content字段——这说明底层通了，LangChain随时可以接管。

3. LangChain零改造接入：替换一行URL，模型自由切换

这才是本文最实用的部分。LangChain对OpenAI兼容接口的支持早已成熟，我们只需做最小改动。

3.1 安装必要依赖（仅需2个包）

pip install langchain-community langchain-openai

注意：不需要安装openai包！LangChain 0.1+已将langchain-openai作为独立模块，更轻量、无冲突

3.2 创建LangChain LLM实例（核心代码）

from langchain_openai import ChatOpenAI from langchain_core.messages import HumanMessage # 关键：只改这一行！把openai_api_base指向你的Xinference服务 llm = ChatOpenAI( openai_api_base="http://localhost:9997/v1", # ← 就是这里！ openai_api_key="none", # Xinference不需要key，填任意字符串即可 model_name="qwen2", # 必须与xinference中启动的model name一致 temperature=0.7, ) # 调用方式与OpenAI完全一致 response = llm.invoke([HumanMessage(content="你好，请用中文简单介绍下Qwen2模型的特点")]) print(response.content)

输出示例：
“Qwen2是通义千问系列的最新轻量级语言模型，参数量约0.5B，在保持高性能的同时大幅降低硬件要求，适合在消费级显卡或CPU上本地部署……”

3.3 进阶：支持函数调用（Function Calling）

Xinference完整支持OpenAI的function calling协议，LangChain开箱即用：

from pydantic import BaseModel, Field class WeatherInfo(BaseModel): location: str = Field(description="城市名称，如北京、上海") unit: str = Field(description="温度单位，celsius 或 fahrenheit") llm_with_tools = llm.bind_tools([WeatherInfo]) response = llm_with_tools.invoke("查一下杭州今天的天气") print("工具调用请求：", response.tool_calls) # 输出：[{'name': 'WeatherInfo', 'args': {'location': '杭州', 'unit': 'celsius'}, ...}]

无需额外封装、无需自定义ToolNode——Xinference原生返回tool_calls字段，LangChain自动解析。

4. 实战案例：构建本地知识库问答机器人

光会调用还不够，我们来做一个真实可用的场景：用本地文档构建RAG问答系统，全程不触网、不依赖云API。

4.1 准备文档与向量库（使用Xinference嵌入模型）

Xinference同样支持嵌入模型（Embedding），我们选用bge-m3（多语言、高精度、免费）：

# 启动嵌入模型服务（在另一个终端） xinference launch --model-name bge-m3 --model-type embedding

然后在Python中加载：

from langchain_community.embeddings import OpenAIEmbeddings from langchain_community.vectorstores import Chroma # 复用同一套API地址，只需改model_type embeddings = OpenAIEmbeddings( openai_api_base="http://localhost:9997/v1", openai_api_key="none", model="bge-m3", # 注意：这里是embedding模型名 ) # 加载本地文档（例如README.md） from langchain_community.document_loaders import TextLoader loader = TextLoader("./docs/README.md") docs = loader.load() # 构建向量库 vectorstore = Chroma.from_documents(docs, embeddings) retriever = vectorstore.as_retriever()

4.2 组装RAG链（LangChain标准写法）

from langchain import hub from langchain_core.output_parsers import StrOutputParser from langchain_core.runnables import RunnablePassthrough # 使用LangChain官方RAG提示模板（无需修改） prompt = hub.pull("rlm/rag-prompt") # 构建完整链 rag_chain = ( {"context": retriever | (lambda docs: "\n\n".join([d.page_content for d in docs])), "question": RunnablePassthrough()} | prompt | llm | StrOutputParser() ) # 提问测试 result = rag_chain.invoke("这个项目的部署步骤有哪些？") print(result)

整个流程：文档加载 → 向量编码 → 语义检索 → LLM生成答案，全部运行在本地，无任何外部请求。

5. 模型热切换实战：从Qwen2秒切Phi-3，不重启、不改代码

这是Xinference最被低估的能力——运行时动态切换模型，对LangChain完全透明。

5.1 启动第二个模型（Phi-3-mini-4k-instruct）

xinference launch --model-name phi3 --model-size-in-billions 3.8 --quantization q4_k_m

启动后，访问http://localhost:9997WebUI，可在“Models”页看到两个模型并存

5.2 仅修改model_name，立即生效

回到Python脚本，把原来这行：

model_name="qwen2"

改成：

model_name="phi3"

再次运行llm.invoke(...)，输出风格、响应速度、甚至支持的token长度都会实时变化——而你的LangChain链、RAG逻辑、前端调用方式一行代码都不用动。

小技巧：你可以用环境变量控制模型名，实现配置化切换
model_name=os.getenv("LLM_MODEL", "qwen2")

6. 生产级优化建议：让本地服务稳如磐石

实验室能跑 ≠ 生产可用。以下是经过压测验证的实用建议：

6.1 内存与显存管理（关键！）

Xinference默认启用GPU推理，但若显存不足会自动fallback到CPU（性能下降明显）。建议显式指定：

# 强制使用GPU（推荐） xinference launch --model-name qwen2 --n-gpu 1 # 或限制显存用量（防止OOM） xinference launch --model-name qwen2 --gpu-memory-utilization 0.8

6.2 启用WebUI管理多模型（可视化运维）

WebUI不仅是演示工具，更是生产环境的管理入口：

实时查看各模型GPU显存/CPU占用
一键启停模型，避免端口冲突
查看请求日志与错误堆栈
支持模型分组、标签管理（适合多团队共用）

访问http://localhost:9997即可使用，无需额外配置。

6.3 LangChain连接池与超时设置（防雪崩）

本地服务虽快，但模型加载、首token延迟仍存在。建议为LangChain添加健壮性：

llm = ChatOpenAI( openai_api_base="http://localhost:9997/v1", openai_api_key="none", model_name="qwen2", timeout=30, # 总超时30秒 max_retries=2, # 自动重试2次 http_client=httpx.Client( # 启用连接池 limits=httpx.Limits(max_connections=20), timeout=httpx.Timeout(30.0, connect=10.0) ) )

7. 常见问题速查（新手避坑指南）

遇到报错别慌，90%的问题都在这里：

问题现象	可能原因	解决方案
`Connection refused`	Xinference服务未启动或端口被占	`ps aux \| grep xinference`查进程；改用`--port 9998`换端口
`Model not found`	model_name拼写错误或未启动	访问`http://localhost:9997/v1/models`查当前可用模型列表
`422 Unprocessable Entity`	请求体格式错误（如少传messages）	检查`messages`是否为列表，每个元素含`role`和`content`
`CUDA out of memory`	显存不足	加`--n-gpu 0`强制CPU推理，或加`--gpu-memory-utilization 0.6`降负载
LangChain报`InvalidRequestError`	误用了`openai`包而非`langchain-openai`	`pip uninstall openai && pip install langchain-openai`

终极调试法：用Postman或curl直接调用/v1/chat/completions，排除LangChain干扰

8. 总结：你真正掌握了什么

读完这篇，你已经不是“知道Xinference存在”的人，而是具备了本地大模型工程化落地的核心能力：

部署自由：不再被OpenAI绑定，Qwen、Phi、Llama、DeepSeek随心切换
架构解耦：模型层（Xinference）与应用层（LangChain）彻底分离，各自演进互不干扰
生产就绪：掌握内存管理、连接池、超时控制、可视化运维等真实场景技能
成本可控：所有推理在本地完成，无API调用费用、无数据出域风险

更重要的是——你获得了一种思维范式：把模型当作可插拔的基础设施，而不是需要深度定制的黑盒。

下一步，你可以尝试：
→ 用Xinference启动多模态模型（如Qwen-VL），接入LangChain做图文理解
→ 将Xinference部署到Kubernetes集群，实现模型服务弹性伸缩
→ 结合Dify或FastAPI，快速封装成企业级AI中台

技术的价值不在炫技，而在让复杂变简单。今天这一行openai_api_base的替换，就是你掌控AI基础设施的第一步。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

手把手教学：Xinference与LangChain集成开发AI应用