基于LlamaIndex与本地大模型的私有知识库RAG系统实战指南-开发者社区

1. 项目概述：当大模型遇上本地知识库

最近在折腾一个挺有意思的项目，叫local-rag-llamaindex。这个名字听起来有点技术范儿，但说白了，它的核心目标就一个：让你能在自己的电脑上，用本地的大语言模型（LLM），来“读懂”并“回答”关于你私人文档的问题。比如，你有一堆PDF报告、Word文档、网页书签，你想快速找到某个具体信息，或者让AI帮你总结一份合同要点，但又不想把任何敏感数据上传到云端。这个项目就是为这种场景量身定做的。

RAG，也就是检索增强生成，是当前让大模型变得更“靠谱”的关键技术。它不像传统聊天机器人那样全凭模型“记忆”和“编造”，而是先从一个庞大的知识库（你的文档）里精准找到相关片段，再把这些片段作为上下文喂给模型，让它基于这些确凿的证据来生成答案。这样一来，答案的准确性和可信度就大大提升了。llama-index（现在常叫LlamaIndex）是一个强大的框架，专门用来连接你的私有数据和各种大模型，它负责处理文档加载、索引构建、检索查询这一整套复杂流程。

所以，local-rag-llamaindex这个项目，就是把 RAG 的核心思想、LlamaIndex 的工程能力，以及完全在本地运行的轻量级大模型（比如 Llama 3.2、Qwen2.5 的量化版本）给整合到了一起。它去掉了对 OpenAI API 等云端服务的依赖，所有计算、所有数据都在你自己的机器上完成，在数据隐私和成本控制方面有着天然的优势。对于开发者、研究者，或者任何有大量本地文档需要智能处理的个人和小团队来说，这无疑是一个极具吸引力的解决方案。

2. 核心架构与工具选型解析

2.1 为什么选择“纯本地”路线？

在开始动手之前，我们必须想清楚架构的基石。选择纯本地部署，而非调用云端API，主要基于三个核心考量：数据安全、长期成本和控制权。

数据安全是首要红线。很多企业文档、个人笔记、研究资料都包含敏感信息。一旦上传至第三方服务，便失去了对数据的绝对控制，存在潜在的泄露风险，也可能不符合某些行业的数据合规要求。本地化部署确保了数据从读取、处理到生成答案的全生命周期都在可控环境中，这是云端方案无法比拟的。

成本可控性。虽然初期需要投入硬件（或利用现有算力），但这是一次性或可预估的投入。使用云端API是按调用次数或Token数量计费的，对于高频次、大规模的文档问答场景，长期累积的费用可能非常可观，且存在不可预测性。本地部署后，边际成本几乎为零，你可以尽情地进行实验和迭代。

完全的控制与定制能力。你可以自由选择任何开源的、支持本地部署的模型，可以根据你的文档特点（如专业术语多、格式特殊）微调检索策略或提示词模板，可以深度集成到内部工作流中，而不受服务商功能更新或接口变动的限制。这种灵活性对于构建严肃的生产级应用至关重要。

2.2 技术栈深度拆解：LlamaIndex + 本地LLM + 向量数据库

一个健壮的本地RAG系统，通常由以下几个关键组件构成，local-rag-llamaindex项目正是对这些组件的有机整合。

1. LlamaIndex：数据连接与编排的“大脑”LlamaIndex 不是一个数据库，而是一个高级框架。它的核心价值在于抽象并简化了从非结构化数据到LLM可理解格式的复杂管道。它主要做三件事：

数据连接器（Data Connectors）：也叫Readers，支持从PDF、Word、PPT、网页、Notion、数据库等数十种来源加载文档。
索引与检索（Indexing & Retrieval）：这是其核心。它会将文档拆分成更小的“节点”（Chunks），然后通过嵌入模型（Embedding Model）将这些节点转换为向量，并存储到向量数据库中。查询时，它负责将问题也转换为向量，并从数据库中检索出最相关的几个节点。
查询引擎（Query Engines）：它将检索到的节点上下文与用户问题组合成一个精心设计的提示（Prompt），发送给LLM，并解析返回的答案。它还支持更复杂的操作，如多步查询、摘要等。

2. 本地大语言模型（LLM）：本地的“思考者”这是生成答案的引擎。在本地运行，我们通常选择参数量相对较小（如7B、13B参数）但性能优秀的开源模型，如 Meta 的 Llama 3.2、清华的 ChatGLM3、阿里的 Qwen2.5 等。为了在消费级GPU甚至CPU上流畅运行，这些模型需要经过量化处理——降低模型权重的数值精度（如从FP16到INT4），从而大幅减少内存占用和提升推理速度，同时尽量保持模型能力。工具方面，ollama和lmstudio是目前最流行的本地模型运行和管理工具，它们提供了简单的拉取、运行和API接口。

3. 向量数据库（Vector Database）：知识的“记忆库”用于高效存储和检索文档片段对应的向量。它需要能快速进行相似性搜索（如余弦相似度）。本地部署的轻量级选择很多：

Chroma：简单易用，纯Python实现，适合快速原型开发。
FAISS：Facebook出品的库，检索性能极高，但更偏底层库，需要更多代码集成。
Qdrant：功能丰富，支持过滤，可以用Docker本地运行，是性能和功能兼顾的选择。
LanceDB：新兴力量，基于高性能列存格式，特别适合大规模数据集。

在local-rag-llamaindex的上下文中，LlamaIndex 作为总指挥，协调本地LLM和向量数据库，共同完成RAG任务。

2.3 嵌入模型：决定检索质量的关键

检索的准确性，很大程度上不取决于生成答案的LLM，而取决于嵌入模型。它将文本转换为向量，这个向量的质量直接决定了“相似性搜索”是否有效。如果嵌入模型无法理解“苹果公司”和“iPhone”之间的语义关联，那么即使用再强大的LLM，它也得不到正确的上下文。

对于中文场景，不能直接使用为英文优化的通用模型（如text-embedding-ada-002的某些开源复现）。必须选择针对中文进行过充分训练的词向量模型。例如：

BAAI/bge-large-zh-v1.5：智源研究院开源的系列模型，在中文语义相似度任务上表现非常出色，是当前中文社区的首选之一。
moka-ai/m3e-base：同样在中文文本匹配上效果很好，体积相对较小。
shibing624/text2vec-base-chinese：一个经典且稳定的选择。

这些模型都可以通过sentence-transformers库轻松加载并在本地使用。选择嵌入模型时，需要在效果、速度和模型大小之间做权衡。对于本地部署，一个几百MB的m3e-base通常比一个几GB的bge-large更具实用性。

3. 环境搭建与核心配置实战

3.1 基础Python环境与依赖管理

首先，我们需要一个干净的Python环境。强烈建议使用conda或venv创建虚拟环境，以避免包冲突。

# 使用 conda 创建环境 conda create -n local_rag python=3.10 conda activate local_rag # 或者使用 venv python -m venv local_rag_env source local_rag_env/bin/activate # Linux/Mac # local_rag_env\Scripts\activate # Windows

接下来安装核心依赖。LlamaIndex 的版本迭代很快，API有时会有较大变动，建议锁定一个较新的稳定版本。

pip install llama-index-core # LlamaIndex 核心库 pip install llama-index-llms-ollama # Ollama LLM 集成 pip install llama-index-embeddings-huggingface # 使用 HuggingFace 嵌入模型 pip install sentence-transformers # 嵌入模型需要 pip install chromadb # 向量数据库，这里以 Chroma 为例 pip install pypdf # 用于读取 PDF pip install python-docx # 用于读取 Word

注意：llama-index包现在通常指代元包或旧版本。新版本（>=0.10.0）采用了模块化架构，你需要根据需求安装llama-index-core和对应的集成包（如llama-index-llms-*,llama-index-embeddings-*）。这能让你的环境更轻量。

3.2 本地LLM服务部署：以Ollama为例

Ollama 极大地简化了本地大模型的运行。首先，去官网下载并安装 Ollama。然后，通过命令行拉取你想要的模型。模型标签可以在 Ollama 官网库查找。

# 拉取一个流行的量化模型，例如 Llama 3.2 的 3B 参数指令微调版 ollama pull llama3.2:3b-instruct-q4_K_M # 或者拉取一个中文能力较强的模型，如 Qwen2.5 ollama pull qwen2.5:7b-instruct-q4_K_M

拉取完成后，Ollama 会在本地启动一个服务（默认在11434端口），提供类 OpenAI 的 API 接口。你可以运行ollama run <model-name>进行简单对话测试。对于 RAG 项目，我们不需要在前端运行，只需确保服务在后台可用。

3.3 初始化LlamaIndex核心组件

现在，我们将在Python代码中，把各个组件像拼积木一样组装起来。首先初始化嵌入模型和LLM。

from llama_index.core import Settings from llama_index.embeddings.huggingface import HuggingFaceEmbedding from llama_index.llms.ollama import Ollama # 1. 初始化嵌入模型（使用中文优化的模型） embed_model = HuggingFaceEmbedding( model_name="BAAI/bge-small-zh-v1.5" # 选用一个小尺寸的版本，适合本地快速启动 # model_name="moka-ai/m3e-base" ) # 将嵌入模型设置为全局默认 Settings.embed_model = embed_model # 2. 初始化本地LLM（连接本地Ollama服务） llm = Ollama(model="qwen2.5:7b-instruct-q4_K_M", base_url="http://localhost:11434", request_timeout=60.0) Settings.llm = llm # 3. 初始化向量数据库客户端（以Chroma为例，持久化到本地目录`./chroma_db`） import chromadb from llama_index.vector_stores.chroma import ChromaVectorStore from llama_index.core import StorageContext # 创建 Chroma 客户端并指定持久化路径 chroma_client = chromadb.PersistentClient(path="./chroma_db") # 创建一个命名的集合（collection），相当于一个知识库空间 chroma_collection = chroma_client.get_or_create_collection("my_local_rag") # 用集合包装成 LlamaIndex 可识别的 VectorStore vector_store = ChromaVectorStore(chroma_collection=chroma_collection) # 创建存储上下文 storage_context = StorageContext.from_defaults(vector_store=vector_store)

这段代码完成了核心“三件套”的配置：一个负责把文本变成向量的嵌入模型，一个负责思考生成答案的大模型，以及一个存储和检索这些向量的数据库。Settings是 LlamaIndex 的全局配置中心，在这里设定了默认组件。

4. 从文档加载到索引构建全流程

4.1 文档加载与智能分块策略

有了基础设施，接下来就是喂数据。LlamaIndex 支持多种文档加载器。

from llama_index.core import SimpleDirectoryReader from llama_index.core.node_parser import SentenceSplitter # 加载文档：假设你的文档放在 `./data` 目录下 documents = SimpleDirectoryReader("./data").load_data() print(f"已加载 {len(documents)} 个文档")

直接加载的文档可能很长，我们需要将其切割成更小的“块”（Chunks）以便嵌入和检索。分块策略是RAG效果的隐形支柱，分得不好，检索精度会急剧下降。

# 配置文本分块器 node_parser = SentenceSplitter( chunk_size=512, # 每个块的最大token数（约等于字数） chunk_overlap=50, # 块与块之间的重叠token数，避免上下文断裂 separator="\n", # 优先按段落分割 ) # 将文档解析为节点（Nodes） nodes = node_parser.get_nodes_from_documents(documents) print(f"文档被分割成 {len(nodes)} 个节点")

分块参数的心得体会：

chunk_size：需要权衡。太小（如128）可能丢失完整语义；太大（如1024）可能包含无关信息，稀释关键内容，且增加LLM处理负担。对于通用文档，384-512是一个不错的起点。
chunk_overlap：非常重要！它确保了当一个句子或概念恰好被分块边界切断时，相邻的块仍然能包含部分上下文，有助于检索的连贯性。通常设置为chunk_size的10%-20%。
进阶技巧：对于结构清晰的文档（如论文、API文档），可以考虑使用SemanticSplitterNodeParser，它利用嵌入模型本身来寻找语义边界进行分割，效果更好但更慢。

4.2 向量索引的创建与持久化

现在，我们将这些文本节点转换为向量，并存入数据库，构建可检索的索引。

from llama_index.core import VectorStoreIndex # 创建向量存储索引 # 此步骤会调用嵌入模型，为每个节点生成向量，并存入我们之前配置的 Chroma 向量库 index = VectorStoreIndex( nodes=nodes, # 上一步得到的节点 storage_context=storage_context, # 包含我们向量数据库的上下文 show_progress=True # 显示嵌入进度 ) # 索引创建后，默认已经持久化到 `./chroma_db` 目录。 # 之后再次运行，可以直接从存储加载，无需重新生成嵌入，节省大量时间。

这个过程可能是整个流程中最耗时的，尤其是文档量大、嵌入模型较慢时。show_progress=True可以让你看到进度条。完成后，你的./chroma_db目录下会保存所有向量数据和元数据。

4.3 实现“记忆化”：如何复用已有索引

在实际应用中，文档库不是每次都变。我们不需要每次启动都重新解析文档和计算向量。

# 方案一：直接检查存储并加载现有索引（推荐） import os from llama_index.core import load_index_from_storage # 指定存储路径 PERSIST_DIR = "./chroma_db" if os.path.exists(PERSIST_DIR) and len(os.listdir(PERSIST_DIR)) > 0: # 存储存在且非空，则加载现有索引 print("检测到已有索引存储，正在加载...") # 需要重新初始化相同的存储上下文 chroma_client = chromadb.PersistentClient(path=PERSIST_DIR) chroma_collection = chroma_client.get_collection("my_local_rag") vector_store = ChromaVectorStore(chroma_collection=chroma_collection) storage_context = StorageContext.from_defaults(vector_store=vector_store) # 从存储加载索引 index = load_index_from_storage(storage_context=storage_context) print("索引加载成功！") else: # 存储不存在，则创建新索引 print("未找到现有索引，开始创建新索引...") # ... (执行上一小节中从加载文档到创建索引的完整流程) # 创建后索引会自动持久化

这种“记忆化”处理对于生产环境至关重要，它使得系统可以快速启动，并支持增量更新文档（虽然LlamaIndex对增量更新的原生支持需要一些额外处理）。

5. 查询引擎与高级RAG技巧

5.1 基础查询与答案生成

索引构建好后，我们就可以进行问答了。LlamaIndex 的核心抽象是QueryEngine。

# 从索引创建查询引擎 query_engine = index.as_query_engine( similarity_top_k=3, # 检索最相关的3个文本块 response_mode="compact", # 响应模式，`compact`会尝试精简上下文 llm=llm, # 指定使用的LLM，这里使用全局设置的llm verbose=True # 打印详细的检索和生成过程，调试时非常有用 ) # 发起查询 response = query_engine.query("总结一下第二份文档的主要观点是什么？") print(f"答案：{response.response}") print("\n--- 本次查询使用的参考来源 ---") for i, source_node in enumerate(response.source_nodes): print(f"[片段 {i+1}]， 相似度得分：{source_node.score:.4f}") print(f"文本预览：{source_node.text[:200]}...") # 打印前200个字符 print("-" * 50)

这个简单的查询背后，query_engine帮你完成了以下工作：

检索：将你的问题通过嵌入模型转换为向量，在向量数据库中搜索similarity_top_k个最相似的文本节点。
合成：将检索到的节点文本与你的问题，按照预设的提示词模板组合，形成完整的提示。
生成：将提示发送给本地LLM，生成最终答案。
溯源：返回答案的同时，提供答案所依据的源节点及其相似度得分，这对于验证答案可靠性至关重要。

5.2 优化提示词模板以提升回答质量

默认的提示词模板可能不适合所有场景。特别是使用本地小模型时，精心设计的提示词能显著提升输出质量。我们可以自定义提示词。

from llama_index.core import PromptTemplate from llama_index.core.llms import ChatMessage # 1. 定义一个更明确、更适合中文的提示模板 qa_prompt_str = """ 你是一个专业的文档分析助手。请严格根据以下提供的上下文信息来回答问题。 如果上下文中的信息不足以回答问题，请直接说“根据提供的信息，我无法回答这个问题”，不要编造信息。 上下文信息如下： --------------------- {context_str} --------------------- 问题：{query_str} 请基于上下文提供清晰、准确的答案： """ qa_prompt = PromptTemplate(qa_prompt_str) # 2. 创建查询引擎时应用自定义提示 custom_query_engine = index.as_query_engine( similarity_top_k=3, text_qa_template=qa_prompt, # 应用自定义的QA提示模板 verbose=False ) # 测试 response_custom = custom_query_engine.query("合同中关于违约金的条款是怎么规定的？") print(response_custom.response)

提示词设计心得：

明确指令：告诉模型你的角色和任务。
强调依据：用“严格根据上下文”等措辞，约束模型不要胡编乱造。
处理未知：明确指示当信息不足时该如何回应，这比模型自己瞎猜要好得多。
结构化输出：如果需要，可以要求模型以特定格式（如列表、JSON）输出。
迭代测试：针对你的文档类型和问题风格，不断调整提示词，观察输出变化。

5.3 实现带历史记录的对话式问答

基础的问答是单轮的。要实现多轮对话（记住之前的问答历史），需要使用ChatEngine。

from llama_index.core.memory import ChatMemoryBuffer # 初始化一个记忆缓冲区，保存最近的对话历史 memory = ChatMemoryBuffer.from_defaults(token_limit=1500) # 限制历史token数 # 创建聊天引擎 chat_engine = index.as_chat_engine( chat_mode="context", # 模式：'context'会将历史对话和当前检索上下文一起送入LLM memory=memory, similarity_top_k=2, verbose=False ) # 进行多轮对话 response_1 = chat_engine.chat("我们公司今年的销售目标是多少？") print(f"AI: {response_1.response}") # 在后续问题中，可以使用“它”、“这个目标”等指代词 response_2 = chat_engine.chat("为了实现它，主要策略有哪些？") print(f"AI: {response_2.response}") # 查看记忆中的历史 print("\n当前对话历史：") for msg in memory.get_all(): print(f"{msg.role}: {msg.content[:100]}...")

ChatMemoryBuffer会管理对话的来回消息，并在每次查询时，将相关的历史信息也放入提示中，使得LLM能理解对话的上下文。token_limit参数用于防止历史记录无限增长导致提示过长。

6. 性能调优与常见问题排查

6.1 检索效果不佳的诊断与优化

RAG系统回答不对，很多时候问题出在“检索”环节，而不是“生成”环节。

症状：答案与问题无关，或未包含关键信息。排查步骤：

检查检索到的源：如上文所示，开启verbose=True或打印source_nodes，查看实际检索到了哪些文本片段。这些片段是否真的与你的问题相关？
评估嵌入模型：你的嵌入模型是否适合你的文档语言和领域？尝试用模型直接计算问题与几个已知相关、不相关句子的相似度，看它能否正确区分。
调整分块策略：
- 块太大：可能包含了太多噪声，稀释了关键信息的向量表示。尝试减小chunk_size。
- 块太小：可能丢失了必要的上下文，导致语义不完整。尝试增大chunk_size或增加chunk_overlap。
- 分块边界不合理：考虑换用按标题分块（HierarchicalNodeParser）或语义分块（SemanticSplitterNodeParser）。
调整检索参数：增加similarity_top_k值（例如从3到5），让LLM看到更多候选内容。或者尝试不同的检索器，如BM25Retriever（基于关键词）与向量检索器混合使用，实现混合检索。

6.2 回答质量与生成速度的平衡

症状：回答速度慢，或者回答冗长、不聚焦。优化方向：

LLM模型选择：这是最大的影响因素。更小的模型（如3B vs 7B）推理速度更快，内存占用更小，但能力可能较弱。需要在你的任务上测试，找到精度和速度的平衡点。q4_K_M这类量化格式在精度和速度上通常是比较好的折中。
提示词工程：如5.2节所述，一个清晰的、带有约束的提示词能引导模型给出更简洁、准确的答案，减少无关的“废话”。
上下文窗口管理：检索到的节点总文本长度（上下文）会影响LLM的处理时间和效果。确保chunk_size * similarity_top_k的总和不超过模型上下文窗口的合理上限（通常留出部分空间给提示词和答案）。可以通过设置response_mode为“compact”或“tree_summarize”来让LlamaIndex先对检索到的上下文进行压缩或总结。
硬件利用：确保Ollama正确利用了你的GPU（如果可用）。运行ollama run时查看GPU内存占用。对于纯CPU运行，可以考虑使用gguf格式的模型搭配llama.cpp库，可能获得更好的CPU优化性能。

6.3 常见错误与解决方案实录

在实际部署和运行中，你可能会遇到以下典型问题：

问题现象	可能原因	解决方案
`ConnectionError`连接Ollama失败	Ollama服务未启动，或端口被占用	1. 终端运行`ollama serve`查看服务状态。 2. 检查代码中`base_url`是否正确（默认`http://localhost:11434`）。 3. 使用`netstat -an \| grep 11434`(Linux/Mac) 或`netstat -ano \| findstr 11434`(Windows) 查看端口状态。
嵌入过程极其缓慢	首次下载嵌入模型，或模型在CPU上运行	1. 耐心等待首次下载。`sentence-transformers`会自动从HuggingFace Hub下载模型。 2. 考虑换用更小的嵌入模型（如`BAAI/bge-small-zh`）。 3. 确认`sentence-transformers`是否可能使用了GPU（通常会自动使用）。
检索结果完全随机	向量数据库（如Chroma）集合（collection）不一致	1. 确保每次加载索引时，使用的`collection_name`与创建时一致。 2. 检查持久化路径是否一致。最简单的方法是：在创建和加载时，使用完全相同的`chroma_client`和`collection`初始化代码。
LLM回答“我不知道”或内容空洞	检索到的上下文质量差，或提示词限制过严	1. 按6.1节检查检索效果。 2. 调整提示词，减少过于强硬的限制，或鼓励模型基于已有信息进行合理推断。
内存不足（OOM）	同时加载的模型太大，或文档分块过多	1. 使用量化程度更高的模型（如q4_0, q5_K_S）。 2. 减少`similarity_top_k`或`chunk_size`。 3. 考虑流式处理文档，而不是一次性全部加载和嵌入。

一个关键的实操心得：在开发过程中，务必循序渐进。不要一开始就导入成千上万份文档。先用1-2份有代表性的小文档跑通整个流程，验证每个环节（加载、分块、检索、生成）都符合预期。然后再逐步扩大数据规模，这样能更容易定位问题所在。

7. 项目扩展与进阶应用场景

一个基础的本地RAG系统搭建完成后，你可以根据需求向多个方向扩展，使其更加强大和实用。

7.1 支持更多文档格式与数据源

LlamaIndex 拥有丰富的社区连接器。除了本地文件，你还可以轻松接入各种数据源。

# 安装更多连接器 pip install llama-index-readers-file # 基础文件阅读器增强 pip install llama-index-readers-web # 网页爬取 pip install llama-index-readers-database # 数据库 # 例如，读取网页 from llama_index.readers.web import SimpleWebPageReader urls = ["https://example.com/page1", "https://example.com/page2"] documents = SimpleWebPageReader().load_data(urls)

7.2 实现元数据过滤与混合检索

单纯的向量相似度搜索有时不够精确。例如，你想搜索“2023年第三季度的财务报告”，除了语义相似，还应过滤“年份=2023”且“文档类型=报告”。这需要用到元数据过滤。

# 1. 在创建节点时添加元数据（例如，从文件名或目录结构解析） for node in nodes: node.metadata = {"source_file": "2023_q3_report.pdf", "year": 2023, "doc_type": "report"} # 实际应用中，元数据应从文档属性中自动提取 # 2. 使用支持过滤的向量数据库（如Chroma、Qdrant）和对应的检索器 from llama_index.core.vector_stores import MetadataFilters, ExactMatchFilter from llama_index.core import VectorStoreIndex # 假设索引已创建并包含元数据 index = VectorStoreIndex.from_vector_store(vector_store) # 创建元数据过滤器 filters = MetadataFilters( filters=[ ExactMatchFilter(key="year", value=2023), ExactMatchFilter(key="doc_type", value="report"), ] ) # 创建带过滤的查询引擎 query_engine = index.as_query_engine( similarity_top_k=3, filters=filters, # 应用元数据过滤 verbose=True ) # 现在，检索只会在2023年的报告中寻找相似内容 response = query_engine.query("第三季度的营收增长情况如何？")

7.3 构建Web界面或API服务

要让非开发者也能使用这个系统，你需要一个界面。可以用Gradio或Streamlit快速构建一个Web UI。

# 使用 Gradio 构建一个简易界面的示例 import gradio as gr # 假设你的核心查询函数已经封装好 def answer_question(question, history): # history 是 Gradio 管理的对话历史，这里我们使用简单的无状态查询 response = query_engine.query(question) return response.response # 创建界面 demo = gr.ChatInterface( fn=answer_question, title="本地知识库智能助手", description="基于您的本地文档进行问答。", examples=["公司的主要产品有哪些？", "去年的营收目标完成了吗？"] ) demo.launch(server_name="0.0.0.0", server_port=7860) # 在本地网络可访问

运行这段代码，你就可以在浏览器中打开http://localhost:7860，看到一个交互式的聊天界面。对于更复杂的生产部署，你可以使用FastAPI将核心功能封装成REST API，供前端应用调用。

走到这一步，你已经拥有了一个功能完整、完全自主可控的本地知识库问答系统。它就像为你量身定制的数字大脑，能随时从你的私人文档库中提取知识并给出答案。整个项目最迷人的地方在于，所有环节——从数据、模型到计算——都牢牢掌握在你手中。你可以持续优化它：尝试不同的模型组合、微调嵌入模型以适应专业术语、设计更复杂的检索逻辑，或者将它集成到你的日常工作流中，真正让AI成为处理信息的得力助手。