news 2026/4/25 1:45:03

大模型的探索与实践-课程笔记(八):RAG 技术原理与本地部署

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型的探索与实践-课程笔记(八):RAG 技术原理与本地部署

Take-away Messages

  • RAG 的定位:解决大模型“不了解最新/私有知识”和“严重幻觉”的核心基座型技术。它能让大模型无痛适配用户私有数据。
  • 与 ICL、Finetuning 的对比
    • ICL(上下文学习)适合解决单一特定问题,但当参考文档过长时会失效。
    • Finetuning(微调)成本高昂且更新慢;RAG 能够随时更新知识库,快速部署
  • RAG 三部曲:Retrieval(检索) -> Augmentation(增强) -> Generation(生成)。
  • 检索的底层逻辑:不直接计算庞大的 Attention,而是将文档切片后转化为Embedding(嵌入特征),通过计算余弦相似度找出最相关的片段。

第一部分:RAG (Retrieval-Augmented Generation) 理论基础

1. 为什么需要 RAG?(业务痛点)

  • 传统搜索的局限性:例如查阅学院的保研细则,传统方式需要下载文件 -> Ctrl+F 关键词匹配。这非常脆弱:一旦关键词没对上,或者文件隐藏在后台系统,搜索就会失效。
  • 大模型的局限性
    • 幻觉严重:大模型由于对齐机制的设计,在遇到不懂的问题时极易一本正经地胡说八道(如强行证明哥德巴赫猜想),且普通用户很难察觉。
    • 上下文窗口限制:大模型无法直接吞下海量的超长文档库。

2. RAG 的核心思想与三阶段

RAG 的本质是给大模型提供先验信息,不直接让模型去长文档里跑极消耗算力的 Attention 矩阵,而是先做关键信息摘取。

  • R1 - 检索 (Retrieval)
    • 当用户提问时,从庞大的外部知识库中检索出与用户问题最相关的几个文本片段。
  • A2 - 增强 (Augmentation)
    • 将检索出来的相关内容,与用户的原始提问拼接在一起,扩展上下文(形成一个包含正确答案参考的新 Prompt)。
  • G3 - 生成 (Generation)
    • 把拼接好的短文本送入大模型,大模型基于这些增强后的内容生成最终回答。

3. 深挖核心难点:如何做“检索 (Retrieval)”?

既然不能全靠大模型的 Attention 机制,面对超长文档,如何匹配相关片段?

  1. 文档切片 (Chunking):先把长文本切成一段一段的。
  2. 特征化 (Embedding):利用深度学习的表征学习(Representation Learning),取出神经网络倒数某层的输出,将文本段落转化为特征向量(Embedding Space)。
  3. 计算相关性
    • 主流基础方法:计算用户问题的 Embedding 向量与各个文档切片 Embedding 向量之间的余弦相似度 (Cosine Similarity)。夹角越小,相关性越高。
    • 前沿进阶方法 (LLM as a retrieval predictor):把问题和截取的片段拼在一起直接问小模型:“你觉得这两个相关吗?”。如果相关就留下,不相关就扔掉(计算成本略高,但据最新论文效果更好)。

第二部分:工程实操 —— 本地部署 RAGFlow 搭建个人助手

在本地电脑部署一个支持私有知识库的问答助手。

1. 环境准备:安装 Docker

  • 什么是 Docker?Docker 相当于一个“沙箱”或隔离环境。它把开源软件所需的所有环境和依赖全都打包封死在里面,避免在本地电脑运行时发生各种库冲突。
  • 安装步骤
    1. 前往官网下载 Windows Docker (默认 AMD 64 架构)。
    2. 安装完成后必须重启电脑。
    3. 重启后打开 Docker,按照提示必须安装WSL (适用于 Linux 的 Windows 子系统)
    4. 建议使用稳定邮箱进行账号注册与 2FA 二次验证(国内邮箱可能在终端内引起验证无法跳转拉起的 Bug)。

2. 获取代码 (Clone Repo)

  • 前往 GitHub 搜索工具库ragflow
  • Fork 到自己的仓库,并通过桌面端工具(或命令行) Clone 到本地电脑。

3. 部署与连接

  1. 进入本地克隆好的ragflow文件夹内的docker文件夹。
  2. 在当前路径下打开命令行终端 (cmd / powershell)。
  3. 输入启动指令:docker compose -f docker-compose.yml up -d(该拉取过程可能受网络限制,终端内设置全局代理即可解决)。
  4. 拉取并启动成功后,在本地浏览器输入localhost:80,即可进入 RAGFlow 的图形化虚拟机界面。

4. RAGFlow 配置与使用指南

  • 第一步:配置模型:在系统中添加大模型基座的 API Keys。注意:除了生成模型,必须配置具备 Embedding 能力的模型(用于检索切片)。
  • 第二步:构建知识库:添加私有数据库(如自己平时的 txt 文件、课程规章等)。上传文件后,系统需要一定时间进行“解析 (Parsing)”(即切片和向量化)。解析完成后最好进行手动检索调试。
  • 第三步:创建助手:基于配置好的知识库和大模型创建个人 Assistant,即可实现针对私有文档的智能问答与信息提取。

🛠️ AI 工具与模型专项梳理

工具分类工具/模型名称核心功能与应用领域亮点/启发
开源 RAG 应用RAGFlow一款极其成熟的开源 RAG (检索增强生成) 工具,支持拖拽式、无代码挂载并解析本地超长文档,构建私有知识库问答助手。封装度极高,能够让小白用户在本地快速把私有文件变身 ChatGPT。核心依赖于 Embedding 模型的文本解析能力。
开发环境容器Docker开发者必备的沙箱工具。将程序运行环境连同代码一并打包,实现“一次构建,到处运行”。解决了大模型开源工具“在别人电脑上能跑,在我电脑上满地报错”的底层依赖依赖痛点。
大模型基座Gemini (文中提及)Google 的原生多模态大模型。课上老师提到用它生成连贯视角的漫画表现极佳,其底层解决超长图文上下文(Context)一致性的能力目前处于行业第一梯队。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/25 1:41:24

武汉激光展聚焦焊接、切割、钣金、激光工程等技术

当工业4.0浪潮席卷全球,激光技术正以惊人的速度渗透至制造业各个角落。作为全球智能制造的重要载体,2026年9月22日至24日即将在武汉国际博览中心举办的国际激光工程展览会,将成为观察行业发展趋势的重要窗口。这场为期三天的专业盛会&#xf…

作者头像 李华
网站建设 2026/4/25 1:41:17

AI Agent基本概念

AI Agent基本概念 一、为什么有了LLM还需要Agent 早期的大语言模型可以回答我们提出的问题,对应给出图片、代码、攻略等。但仅仅局限于回复,不能帮我们执行,且交互性较差。而Agent在LLM的基础上,可以回答我们的问题,并…

作者头像 李华
网站建设 2026/4/25 1:36:18

模板化写作,为什么会让内容创作走向「零门槛普及」?

2025年之后,内容行业最残酷的变化,你以为是流量更贵了,其实是时间更贵了。 选题、写稿、排版、发文、复盘,一套流程下来,过去像做手工;现在更像在跑流水线。数据显示,82%的运营者把「效率提升」…

作者头像 李华
网站建设 2026/4/25 1:35:07

GPT5.5日常办公场景高效搞定文档与表格

想同时体验GPT-5.5与Gemini等主流模型在办公场景的实际表现,可以试试库拉KULAAI(c.kulaai.cn),一个账号覆盖多个模型入口,按场景灵活切换。很多人觉得GPT-5.5是给开发者用的,跟普通上班族关系不大。这个认知…

作者头像 李华
网站建设 2026/4/25 1:33:20

数字锁相放大器与模拟锁相放大器的区别

在微弱信号检测领域,锁相放大器作为一种高灵敏度的检测工具,广泛应用于物理、化学、生物医学等科研与工程场景。随着数字技术的发展,数字锁相放大器(Digital Lock-In Amplifier, DLIA)逐步取代传统模拟锁相放大器&…

作者头像 李华
网站建设 2026/4/25 1:30:19

Ubuntu 实时性优化(专属定制版,适配 fast_shm 通信)

说明&#xff1a;本配置专为你的 fast_shm 单程延迟优化设计&#xff0c;核心目标是将平均延迟稳定在 25-35us、P99 延迟 <45us&#xff0c;避免偶发高抖动&#xff08;如原日志中 74.474us 异常值&#xff09;。以下所有命令可直接复制执行&#xff0c;无需修改&#xff0c…

作者头像 李华