AI 安装教程汇总（最新）-开发者社区

纯技术干货，无营销内容。三套方案按需自取。

一、Ollama — 本地跑开源大模型（最主流）

1.1 介绍

Ollama 是目前最流行的本地大模型运行工具，支持 Llama、Qwen、DeepSeek、Gemma 等开源模型。一个命令拉起，无需 GPU 也能跑小参数模型。

1.2 安装

Step 1：下载安装包

下载地址：https://ollama.com/download

Windows 版直接下载.exe安装程序，双击运行即可。安装路径默认C:\Users\<用户名>\.ollama。

Step 2：验证安装

ollama--version

Step 3：拉取模型

# 小参数版（无需独显，CPU 可跑）ollama pull deepseek-r1:1.5b ollama pull qwen2.5:3b# 中等参数（建议有独显，6GB 以上显存）ollama pull deepseek-r1:7b ollama pull llama3.2:3b# 大参数（需要 12GB+ 显存）ollama pull deepseek-r1:14b ollama pull qwen2.5:14b

Step 4：运行

ollama run deepseek-r1:1.5b# 直接进入对话，exit 退出

Step 5：API 服务（进阶）

Ollama 默认在localhost:11434提供 REST API：

curl http://localhost:11434/api/generate-d'{ "model": "deepseek-r1:7b", "prompt": "用 Python 写一个快速排序" }'

1.3 常用命令

ollama list# 查看已下载模型ollamaps# 查看正在运行的模型ollamarmdeepseek-r1:7b# 删除模型ollama run deepseek-r1:7b--verbose# 调试模式运行

1.4 显存不足？

7B 模型最低要求 6GB 显存（FP16），开启 4-bit 量化后 4GB 可跑：

ollama pull deepseek-r1:7b-q4_K_M# 量化版，显存占用减半

二、LM Studio — 小白友好的本地 AI GUI

2.1 介绍

LM Studio 提供图形界面，支持拖拽导入 GGUF 模型文件，适合不想敲命令的用户。支持聊天、API 服务、多模型切换。

2.2 安装

Step 1：下载

官网：https://lmstudio.ai/download

选择 Windows 版本（.exe或.zip），双击安装。

Step 2：下载模型

内置模型下载器，搜索deepseek-ai/DeepSeek-R1-GGUF，选择量化版本（如Q4_K_M），下载。

也可以从 Hugging Face 下载 GGUF 文件，拖入 LM Studio 左侧面板。

Step 3：运行

加载模型 → 点击 “Chat”
左侧边栏选模型，调节参数（Temperature、Max Tokens、Context Length）
直接对话

Step 4：开启本地 API

# 在 LM Studio 中：# 1. 点击左侧 "Local Server"# 2. 选择模型# 3. 点击 "Start Server"# 默认地址：http://localhost:1234/v1/chat/completions

支持 OpenAI 兼容接口，代码调用方式：

fromopenaiimportOpenAI client=OpenAI(base_url="http://localhost:1234/v1",api_key="lm-studio"# 任意字符串)response=client.chat.completions.create(model="deepseek-r1-7b",messages=[{"role":"user","content":"解释一下什么是 Transformer 架构"}])print(response.choices[0].message.content)

三、DeepSeek — 国产最强开源模型（API 调用）

3.1 介绍

DeepSeek R1 是 2025-2026 年最热门的国产大模型，数学、代码能力对标 GPT-o1，但成本极低（API 价格约为 GPT-4 的 1/30）。支持本地部署和 API 调用两种方式。

3.2 方式一：API 调用（最简单）

https://platform.deepseek.com 注册账号，充值（最低 0.1 美元起）。

获取 API Key

控制台 → API Keys → 创建 Key，妥善保存。

Python 调用示例

pip install openaifromopenaiimportOpenAI client=OpenAI(api_key="sk-xxxxxxxxxxxxxxxxxxxxxxxx",# 替换为你的 Keybase_url="https://api.deepseek.com")response=client.chat.completions.create(model="deepseek-chat",# 对话模型# model="deepseek-reasoner", # R1 推理模型messages=[{"role":"system","content":"你是一个资深后端工程师"},{"role":"user","content":"用 Go 语言写一个并发 HTTP 服务器"}],temperature=0.7,max_tokens=2048)print(response.choices[0].message.content)

API 价格参考（2026年6月）

模型	输入	输出
deepseek-chat	$0.001/1K tokens	$0.003/1K tokens
deepseek-reasoner (R1)	$0.002/1K tokens	$0.01/1K tokens

3.3 方式二：本地部署（Ollama / vLLM）

Ollama 方式

ollama pull deepseek-r1:7b ollama run deepseek-r1:7b

vLLM 方式（高并发生产部署）

pipinstallvllm python-mvllm.entrypoints.openai.api_server\--modeldeepseek-ai/DeepSeek-R1-Distill-Qwen-7B\--served-model-name deepseek-r1\--host0.0.0.0\--port8000

四、显存 / 内存需求速查

模型	量化	显存需求	内存需求	推荐场景
deepseek-r1:1.5b	FP16	3GB	4GB	CPU 临时测试
deepseek-r1:7b	Q4_K_M	4-6GB	8GB	日常对话
deepseek-r1:14b	Q4_K_M	8-10GB	16GB	编程/推理
deepseek-r1:32b	Q4_K_M	18-20GB	32GB	高质量输出
qwen2.5:14b	Q4_K_M	8-10GB	16GB	中文任务

RTX 3060 (12GB) 可流畅跑 7B，RTX 4070 (12GB) 可跑 14B，RTX 4090 (24GB) 可跑 32B。

五、常见问题

Q：Ollama 下载模型太慢？

# 使用镜像站setOLLAMA_HOST=https://.example.com/ollama# 换成国内镜像# 或者手动下载后导入ollama create deepseek-r1:7b-f./Modelfile

Q：LM Studio 和 Ollama 哪个好？

想要命令行、可编程 → Ollama
想要图形界面、懒人操作 → LM Studio

Q：DeepSeek API 和本地部署怎么选？

个人日常使用、调试 → API 方式，成本低、响应快
隐私敏感数据、离线环境 → 本地 Ollama/vLLM

Q：模型选择哪个？

编程/推理：DeepSeek R1 系列
中文对话/写作：Qwen2.5 系列
多语言通用：Llama 3.2

AI 安装教程汇总（最新）