纯技术干货,无营销内容。三套方案按需自取。
一、Ollama — 本地跑开源大模型(最主流)
1.1 介绍
Ollama 是目前最流行的本地大模型运行工具,支持 Llama、Qwen、DeepSeek、Gemma 等开源模型。一个命令拉起,无需 GPU 也能跑小参数模型。
1.2 安装
Step 1:下载安装包
下载地址:https://ollama.com/download
Windows 版直接下载.exe安装程序,双击运行即可。安装路径默认C:\Users\<用户名>\.ollama。
Step 2:验证安装
ollama--versionStep 3:拉取模型
# 小参数版(无需独显,CPU 可跑)ollama pull deepseek-r1:1.5b ollama pull qwen2.5:3b# 中等参数(建议有独显,6GB 以上显存)ollama pull deepseek-r1:7b ollama pull llama3.2:3b# 大参数(需要 12GB+ 显存)ollama pull deepseek-r1:14b ollama pull qwen2.5:14bStep 4:运行
ollama run deepseek-r1:1.5b# 直接进入对话,exit 退出Step 5:API 服务(进阶)
Ollama 默认在localhost:11434提供 REST API:
curl http://localhost:11434/api/generate-d'{ "model": "deepseek-r1:7b", "prompt": "用 Python 写一个快速排序" }'1.3 常用命令
ollama list# 查看已下载模型ollamaps# 查看正在运行的模型ollamarmdeepseek-r1:7b# 删除模型ollama run deepseek-r1:7b--verbose# 调试模式运行1.4 显存不足?
7B 模型最低要求 6GB 显存(FP16),开启 4-bit 量化后 4GB 可跑:
ollama pull deepseek-r1:7b-q4_K_M# 量化版,显存占用减半二、LM Studio — 小白友好的本地 AI GUI
2.1 介绍
LM Studio 提供图形界面,支持拖拽导入 GGUF 模型文件,适合不想敲命令的用户。支持聊天、API 服务、多模型切换。
2.2 安装
Step 1:下载
官网:https://lmstudio.ai/download
选择 Windows 版本(.exe或.zip),双击安装。
Step 2:下载模型
内置模型下载器,搜索deepseek-ai/DeepSeek-R1-GGUF,选择量化版本(如Q4_K_M),下载。
也可以从 Hugging Face 下载 GGUF 文件,拖入 LM Studio 左侧面板。
Step 3:运行
- 加载模型 → 点击 “Chat”
- 左侧边栏选模型,调节参数(Temperature、Max Tokens、Context Length)
- 直接对话
Step 4:开启本地 API
# 在 LM Studio 中:# 1. 点击左侧 "Local Server"# 2. 选择模型# 3. 点击 "Start Server"# 默认地址:http://localhost:1234/v1/chat/completions支持 OpenAI 兼容接口,代码调用方式:
fromopenaiimportOpenAI client=OpenAI(base_url="http://localhost:1234/v1",api_key="lm-studio"# 任意字符串)response=client.chat.completions.create(model="deepseek-r1-7b",messages=[{"role":"user","content":"解释一下什么是 Transformer 架构"}])print(response.choices[0].message.content)三、DeepSeek — 国产最强开源模型(API 调用)
3.1 介绍
DeepSeek R1 是 2025-2026 年最热门的国产大模型,数学、代码能力对标 GPT-o1,但成本极低(API 价格约为 GPT-4 的 1/30)。支持本地部署和 API 调用两种方式。
3.2 方式一:API 调用(最简单)
注册
https://platform.deepseek.com 注册账号,充值(最低 0.1 美元起)。
获取 API Key
控制台 → API Keys → 创建 Key,妥善保存。
Python 调用示例
pip install openaifromopenaiimportOpenAI client=OpenAI(api_key="sk-xxxxxxxxxxxxxxxxxxxxxxxx",# 替换为你的 Keybase_url="https://api.deepseek.com")response=client.chat.completions.create(model="deepseek-chat",# 对话模型# model="deepseek-reasoner", # R1 推理模型messages=[{"role":"system","content":"你是一个资深后端工程师"},{"role":"user","content":"用 Go 语言写一个并发 HTTP 服务器"}],temperature=0.7,max_tokens=2048)print(response.choices[0].message.content)API 价格参考(2026年6月)
| 模型 | 输入 | 输出 |
|---|---|---|
| deepseek-chat | $0.001/1K tokens | $0.003/1K tokens |
| deepseek-reasoner (R1) | $0.002/1K tokens | $0.01/1K tokens |
3.3 方式二:本地部署(Ollama / vLLM)
Ollama 方式
ollama pull deepseek-r1:7b ollama run deepseek-r1:7bvLLM 方式(高并发生产部署)
pipinstallvllm python-mvllm.entrypoints.openai.api_server\--modeldeepseek-ai/DeepSeek-R1-Distill-Qwen-7B\--served-model-name deepseek-r1\--host0.0.0.0\--port8000四、显存 / 内存需求速查
| 模型 | 量化 | 显存需求 | 内存需求 | 推荐场景 |
|---|---|---|---|---|
| deepseek-r1:1.5b | FP16 | 3GB | 4GB | CPU 临时测试 |
| deepseek-r1:7b | Q4_K_M | 4-6GB | 8GB | 日常对话 |
| deepseek-r1:14b | Q4_K_M | 8-10GB | 16GB | 编程/推理 |
| deepseek-r1:32b | Q4_K_M | 18-20GB | 32GB | 高质量输出 |
| qwen2.5:14b | Q4_K_M | 8-10GB | 16GB | 中文任务 |
RTX 3060 (12GB) 可流畅跑 7B,RTX 4070 (12GB) 可跑 14B,RTX 4090 (24GB) 可跑 32B。
五、常见问题
Q:Ollama 下载模型太慢?
# 使用镜像站setOLLAMA_HOST=https://.example.com/ollama# 换成国内镜像# 或者手动下载后导入ollama create deepseek-r1:7b-f./ModelfileQ:LM Studio 和 Ollama 哪个好?
- 想要命令行、可编程 → Ollama
- 想要图形界面、懒人操作 → LM Studio
Q:DeepSeek API 和本地部署怎么选?
- 个人日常使用、调试 → API 方式,成本低、响应快
- 隐私敏感数据、离线环境 → 本地 Ollama/vLLM
Q:模型选择哪个?
- 编程/推理:DeepSeek R1 系列
- 中文对话/写作:Qwen2.5 系列
- 多语言通用:Llama 3.2