零基础入门：ChatGLM3-6B本地化部署与基础使用全攻略-开发者社区

零基础入门：ChatGLM3-6B本地化部署与基础使用全攻略

1. 为什么选择本地部署ChatGLM3-6B？

你是否遇到过这些情况：云端API响应慢、网络不稳定导致对话中断、担心聊天记录被上传到第三方服务器？或者你手头正有一块RTX 4090D显卡，却不知道如何让它真正为你所用？

ChatGLM3-6B不是另一个需要注册、充值、等待审核的在线服务。它是一套可以完全装进你本地服务器的“智能大脑”——32k超长上下文记忆、零延迟响应、数据永不离开你的设备。更重要的是，它不需要你成为Linux系统专家或深度学习工程师，只要你会复制粘贴几行命令，就能在30分钟内拥有一个属于自己的AI助手。

本文不讲抽象概念，不堆砌技术参数，只聚焦一件事：让你从零开始，亲手把ChatGLM3-6B跑起来，并真正用上它。无论你是程序员、产品经理、内容创作者，还是单纯对AI好奇的技术爱好者，只要你有一块支持CUDA的NVIDIA显卡（RTX 3090及以上推荐），就能跟着本文一步步完成部署。

我们跳过那些让人望而生畏的术语陷阱，比如“量化”“LoRA微调”“FlashAttention”，先确保你能看到模型在屏幕上流畅打字、准确回答问题、记住你刚才聊过什么——这才是真正有价值的起点。

2. 环境准备：三步搞定硬件与基础依赖

2.1 硬件要求：别让显卡“吃不饱”也别“撑着”

ChatGLM3-6B-32k是一个60亿参数的中型大语言模型，它对硬件的要求非常务实：

最低配置：RTX 3090（24GB显存）或RTX 4090D（24GB显存），运行FP16精度模型
推荐配置：RTX 4090（24GB）或A100（40GB），可开启更多并发会话
内存要求：至少32GB系统内存（用于模型加载和缓存）
存储空间：约18GB可用空间（模型文件14GB + 缓存 + 日志）

注意：不要尝试在笔记本电脑的RTX 4060（8GB）或消费级显卡上强行部署。虽然技术上可能启动，但会频繁触发显存交换，导致响应延迟高达数秒，完全失去“零延迟”的核心价值。

2.2 操作系统与Python环境：干净、稳定、不冲突

我们采用最轻量、最稳定的组合：Ubuntu 20.04/22.04 + Python 3.8 + PyTorch 2.0.0 + CUDA 11.8。这个组合经过大量实测，能完美避开新版Transformers库中Tokenizer的兼容性Bug。

创建独立环境，避免污染系统Python：

# 创建名为chatglm3-6b的新conda环境 conda create -n chatglm3-6b python=3.8 # 激活环境（AutoDL平台请用source activate） conda activate chatglm3-6b # 升级pip并更换为清华源（国内用户必备） python -m pip install --upgrade pip pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

安装核心依赖包（注意版本锁定，这是稳定运行的关键）：

pip install torch==2.0.0+cu118 torchvision==0.15.1+cu118 --extra-index-url https://download.pytorch.org/whl/cu118 pip install transformers==4.40.2 pip install streamlit==1.24.0 pip install modelscope==1.9.5 pip install sentencepiece==0.1.99 pip install accelerate==0.24.1

关键提示：transformers==4.40.2是本文档指定的“黄金版本”。新版本（如4.41+）中Tokenizer行为变更，会导致ChatGLM3模型加载失败或输出乱码。请务必严格匹配此版本。

2.3 模型下载：14GB文件，一次到位

模型文件较大（约14GB），建议在终端中执行下载，避免浏览器中断。在/root/autodl-tmp目录下创建download.py文件：

import os from modelscope import snapshot_download # 指定模型ID和本地保存路径 model_dir = snapshot_download( 'ZhipuAI/chatglm3-6b', cache_dir='/root/autodl-tmp', revision='master' ) print(f"模型已下载至: {model_dir}")

运行命令：

python /root/autodl-tmp/download.py

下载过程约需10–20分钟，取决于你的网络带宽。完成后，你会在/root/autodl-tmp/ZhipuAI/chatglm3-6b目录下看到完整的模型文件夹，包含pytorch_model.bin、tokenizer.model等关键文件。

3. 核心部署方案：Streamlit Web界面（推荐首选）

为什么我们首推Streamlit而非Gradio？因为它解决了三个实际痛点：启动快、刷新不重载、交互顺滑。Gradio每次刷新页面都要重新加载14GB模型，而Streamlit通过@st.cache_resource实现“一次加载，永久驻留”。

3.1 创建Web应用脚本

新建文件web_streamlit_demo.py，内容如下（已精简优化，去除冗余UI组件）：

import streamlit as st from transformers import AutoTokenizer, AutoModel import torch # 使用@st.cache_resource实现模型单次加载、内存常驻 @st.cache_resource def load_model(): tokenizer = AutoTokenizer.from_pretrained( "/root/autodl-tmp/ZhipuAI/chatglm3-6b", trust_remote_code=True ) model = AutoModel.from_pretrained( "/root/autodl-tmp/ZhipuAI/chatglm3-6b", trust_remote_code=True ).half().cuda() model = model.eval() return tokenizer, model # 初始化模型与分词器 tokenizer, model = load_model() # 页面配置 st.set_page_config( page_title="ChatGLM3-6B 本地助手", page_icon="", layout="centered" ) st.title(" ChatGLM3-6B 本地智能助手") st.caption("基于智谱AI开源模型 | 32k超长上下文 | 数据完全私有") # 初始化对话历史 if "messages" not in st.session_state: st.session_state["messages"] = [ {"role": "assistant", "content": "你好！我是本地部署的ChatGLM3-6B，无需联网，数据不出设备。你可以问我任何问题，比如‘写一封辞职信’或‘解释量子纠缠’。"} ] # 显示历史消息 for msg in st.session_state.messages: st.chat_message(msg["role"]).write(msg["content"]) # 用户输入区域 if prompt := st.chat_input("请输入你的问题..."): # 将用户输入加入历史 st.session_state.messages.append({"role": "user", "content": prompt}) st.chat_message("user").write(prompt) # 模型流式响应 with st.chat_message("assistant"): message_placeholder = st.empty() full_response = "" # 调用stream_chat进行流式生成 for response, _ in model.stream_chat(tokenizer, prompt, st.session_state.messages[:-1]): # 逐字拼接，模拟打字效果 full_response = response message_placeholder.markdown(full_response + "▌") # 完成后移除光标，显示最终结果 message_placeholder.markdown(full_response) # 将AI回复加入历史 st.session_state.messages.append({"role": "assistant", "content": full_response})

3.2 启动服务并访问

在终端中执行以下命令启动服务：

streamlit run web_streamlit_demo.py --server.address 0.0.0.0 --server.port 6006

如果你在AutoDL等云平台，点击HTTP按钮即可打开网页；
如果是本地服务器，在浏览器中访问http://localhost:6006；
首次启动会自动打开浏览器窗口，看到一个简洁的聊天界面。

验证成功标志：输入“你好”，几秒内即出现流式响应：“你好👋！我是人工智能助手 ChatGLM3-6B……”，且后续提问能自动记住上下文。

小技巧：关闭终端后服务会停止。如需后台常驻，可使用nohup streamlit run ... &或screen命令。

4. 进阶使用：三种实用交互模式详解

部署只是开始，用好才是关键。ChatGLM3-6B支持三种主流交互方式，每种都对应不同场景需求。

4.1 命令行终端模式：极简、高效、无GUI依赖

适合开发者调试、批量测试、或嵌入到其他脚本中。创建cli_demo.py：

from transformers import AutoTokenizer, AutoModel import os import platform # 加载模型（复用已下载路径） tokenizer = AutoTokenizer.from_pretrained("/root/autodl-tmp/ZhipuAI/chatglm3-6b", trust_remote_code=True) model = AutoModel.from_pretrained("/root/autodl-tmp/ZhipuAI/chatglm3-6b", trust_remote_code=True).half().cuda() model = model.eval() # 清屏命令适配 os_name = platform.system() clear_command = 'cls' if os_name == 'Windows' else 'clear' def main(): history = [] print(" ChatGLM3-6B 本地终端版启动成功！") print(" 输入 'clear' 清空对话历史，输入 'quit' 退出程序\n") while True: user_input = input("👤 用户: ").strip() if user_input.lower() in ["quit", "exit", "q"]: print("👋 再见！") break if user_input.lower() == "clear": history = [] os.system(clear_command) print(" 对话历史已清空") continue if not user_input: continue print(" ChatGLM3-6B: ", end="", flush=True) # 流式打印，每8个token刷新一次屏幕 count = 0 for response, history in model.stream_chat(tokenizer, user_input, history): count += 1 if count % 8 == 0: print(response[len(response)-1:], end="", flush=True) print(response[len(response)-1:]) # 打印最后一段 print() # 换行 if __name__ == "__main__": main()

运行python cli_demo.py，即可获得一个类似iTerm的纯文本交互体验。优势在于：无浏览器开销、响应更快、便于日志记录与自动化集成。

4.2 WebSocket API服务：为前端应用提供实时能力

当你想将ChatGLM3-6B集成到自己的网站、App或内部系统时，WebSocket是最佳选择。它支持服务器主动推送，实现真正的“实时对话”。

创建websocket_api.py：

from fastapi import FastAPI, WebSocket, WebSocketDisconnect from fastapi.responses import HTMLResponse from fastapi.middleware.cors import CORSMiddleware from transformers import AutoTokenizer, AutoModel import uvicorn import json # 加载模型（同前） pretrained = "/root/autodl-tmp/ZhipuAI/chatglm3-6b" tokenizer = AutoTokenizer.from_pretrained(pretrained, trust_remote_code=True) model = AutoModel.from_pretrained(pretrained, trust_remote_code=True).half().cuda() model = model.eval() app = FastAPI() app.add_middleware(CORSMiddleware, allow_origins=["*"]) # 前端HTML（简化版） html = """ <!DOCTYPE html> <html><head><title>ChatGLM3 WebSocket</title></head> <body><h2>WebSocket Chat Interface</h2> <input id="msg" placeholder="输入消息"/><button onclick="send()">发送</button> <div id="log" style="margin-top:10px;max-height:400px;overflow:auto;"></div> <script> const ws = new WebSocket("ws://localhost:6006/ws"); ws.onmessage = e => { const data = JSON.parse(e.data); document.getElementById('log').innerHTML += `<p><b>:</b> ${data.response}</p>`; }; function send() { const msg = document.getElementById('msg').value; if (!msg) return; ws.send(JSON.stringify({query: msg, history: []})); document.getElementById('log').innerHTML += `<p><b>👤:</b> ${msg}</p>`; document.getElementById('msg').value = ''; } </script></body></html> """ @app.get("/") async def get(): return HTMLResponse(html) @app.websocket("/ws") async def websocket_endpoint(websocket: WebSocket): await websocket.accept() try: while True: data = await websocket.receive_json() query = data.get("query", "") history = data.get("history", []) for response, history in model.stream_chat(tokenizer, query, history): await websocket.send_json({ "response": response, "history": history, "status": 202 }) await websocket.send_json({"status": 200}) except WebSocketDisconnect: pass if __name__ == "__main__": uvicorn.run(app, host="0.0.0.0", port=6006, workers=1)

启动命令：

python websocket_api.py

访问http://localhost:6006即可看到一个极简的WebSocket聊天界面。该服务可被任何现代前端框架（Vue/React）直接调用，是构建企业级AI应用的基石。

4.3 OpenAI兼容API：无缝接入现有生态

如果你已有基于OpenAI SDK的项目（如LangChain、LlamaIndex），无需修改一行业务代码，只需切换API地址和Key，即可让ChatGLM3-6B替代GPT-3.5。

我们使用官方推荐的zhipuai-agent-to-openaiDocker镜像（已预置所有依赖）：

# 拉取并启动服务（端口映射到8000） docker run -it -d \ --init \ --name chatglm3-openai \ -p 8000:8000 \ -e TZ=Asia/Shanghai \ vinlic/zhipuai-agent-to-openai:latest # 查看日志确认运行状态 docker logs -f chatglm3-openai

然后在Python中调用（完全复用OpenAI语法）：

from openai import OpenAI client = OpenAI( base_url="http://localhost:8000/v1", api_key="your-api-key-here" # 此处为占位符，实际需按文档拼接 ) response = client.chat.completions.create( model="chatglm3-6b", # 模型名必须匹配 messages=[{"role": "user", "content": "用三句话介绍你自己"}], stream=False ) print(response.choices[0].message.content)

这意味着：你现有的RAG系统、Agent工作流、Prompt工程模板，今天就能跑在本地大模型上。

5. 实用技巧与避坑指南：让部署真正稳定可用

再完美的教程，也绕不开真实环境中的“小意外”。以下是我们在上百次部署中总结出的高频问题与解决方案。

5.1 显存不足？试试这三种降压方案

方案一：启用8-bit量化（推荐）
在load_model()中替换模型加载方式：

from transformers import BitsAndBytesConfig bnb_config = BitsAndBytesConfig(load_in_8bit=True) model = AutoModel.from_pretrained(..., quantization_config=bnb_config)

可将显存占用从14GB降至约8GB，速度损失<10%。

方案二：限制最大生成长度
在Streamlit脚本中，为stream_chat添加参数：

for response, _ in model.stream_chat( tokenizer, prompt, history, max_length=2048, # 默认4096，减半更稳 top_p=0.8 ):

方案三：关闭不必要的GPU特性
启动前设置环境变量：
```
export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128
```

5.2 中文乱码？检查Tokenizer加载方式

错误写法（导致乱码）：

tokenizer = AutoTokenizer.from_pretrained("ZhipuAI/chatglm3-6b") # ❌ 未加trust_remote_code

正确写法（必须）：

tokenizer = AutoTokenizer.from_pretrained( "/root/autodl-tmp/ZhipuAI/chatglm3-6b", trust_remote_code=True # 关键！ )

trust_remote_code=True允许加载模型仓库中自定义的Tokenizer类，这是ChatGLM系列模型的强制要求。

5.3 多轮对话“失忆”？历史管理要规范

ChatGLM3的stream_chat方法要求传入完整的历史列表（含用户和助手消息）。常见错误是只传入最新一轮：

❌ 错误：

# 只传当前问题，历史为空 → 模型“失忆” model.stream_chat(tokenizer, "第二问", [])

正确：

# 传入全部历史，包括之前的所有问答 history = [ {"role": "user", "content": "第一问"}, {"role": "assistant", "content": "第一答"}, {"role": "user", "content": "第二问"} ] model.stream_chat(tokenizer, "第二问", history)

Streamlit脚本中已内置此逻辑，但自定义开发时务必注意。

6. 总结：你的本地AI助手已就绪

回顾整个过程，你已完成了一件在半年前还被视作“硬核操作”的事：将一个前沿大语言模型，完整、稳定、低门槛地部署在自己的设备上。

你掌握了：

如何为ChatGLM3-6B准备纯净、无冲突的Python环境；
如何用Streamlit快速搭建一个美观、流畅、免刷新的Web聊天界面；
如何通过命令行、WebSocket、OpenAI API三种方式灵活调用模型；
如何规避显存不足、中文乱码、多轮失忆等真实部署陷阱。

这不仅是技术能力的提升，更是对AI主权的一次实践——你的数据留在本地，你的算力由你掌控，你的AI助手不再受制于API配额、网络延迟或商业条款。

下一步，你可以：

将它接入公司内部知识库，打造专属客服机器人；
用它批量生成营销文案、产品描述、邮件草稿；
作为编程助手，实时解释代码、修复Bug、生成单元测试；
甚至微调它，让它学会你团队特有的术语和风格。

AI的价值，永远不在云端，而在你指尖可触、随时调用的本地设备上。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

零基础入门：ChatGLM3-6B本地化部署与基础使用全攻略