news 2026/3/22 20:04:22

高效处理RAG文档与优化Embedding的方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
高效处理RAG文档与优化Embedding的方法

一、为什么要做文档预处理

RAG 的重中之重,是对 Embedding 之前的文档做预处理。若不做预处理直接进行向量化存储,会存在以下两个问题:

1.每次有问题进来搜索,都会召回很多大而全的资料,其中部分资料与问题并不相关,既耗费 Token,也不利于节省成本。

2.大量资料涌入后,其中既有答案也有非答案内容,大模型可能会检索到非答案部分,进而产生幻觉。

二、如何进行文档预处理

  1. 文档处理的三种常见形式

1)自动分段与清洗:按照字符数分段,容易截断关联信息,一般不建议采用。

2)自定义:自定义分段符和字符数,可控性高、效果最佳,但需要对分段前的文档做预处理。

3)按层级分段:保留标题级别和层级,对长文档友好。

  1. 文档处理的关键 Tips

1)分段内容被检索召回后会进入对话上下文,过长的段落切分方式有助于生成更优答案,但会消耗大量 Token,需要做好取舍。

2)“纯答案” 型资料需要补充相关问题背景,因为 Embedding 后的查询过程不具备大模型的语义识别和推理能力,可能无法匹配到 “答案” 与问题的相似性。

3)按层级分段时,可以选择保留层级索引。需要注意层级信息(一般是级别标题)的语义表达,若层级信息具备明确的问题导向,可能导致整个文档的所有分段被检索到,进而造成大量 Token 消耗或回答不准确(真正的答案可能未被召回)。

文本类 Embedding 只能处理文字信息,文档中包含的图片会被忽略。此外,在部分 Embedding 项目中,若导入含图片的 Word 文档,图片会被转成 base64 码,消耗大量 Token。因此,当文档中包含图片时,也有对应的处理方式来提高处理效率和精确度。

  1. 图像的三种处理方式
  1. 推荐:对图像以注释形式进行标注解释,用于向量检索和模型理解,例如:【附图:模型在 XX 的测评得分】(https://url)

  2. 使用 OCR 技术识别图片内容,转存为文字形式后进行向量嵌入。

  3. 使用图像理解模型理解图片内容后进行向量嵌入(一般不推荐,因为大模型对图片或图表型内容的理解偏差非常大)。

需要注意的是,图像无法被大语言模型直接输出,需上传到图床手动处理后,将纯图片类内容转成 Markdown 格式或标签,再以文本形式存储。

文末我会附上经过处理后的文档示例,供大家参考,希望能对大家在 RAG 的建设和使用过程中提供帮助。

伙伴们,我们已经一起学习了 RAG 中文档处理和 Embedding 的相关内容。如果今天分享的内容能帮到大家,那真的太棒了

AI时代,未来的就业机会在哪里?

答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具,到自然语言处理、计算机视觉、多模态等核心领域,技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。

掌握大模型技能,就是把握高薪未来。

那么,普通人如何抓住大模型风口?

AI技术的普及对个人能力提出了新的要求,在AI时代,持续学习和适应新技术变得尤为重要。无论是企业还是个人,都需要不断更新知识体系,提升与AI协作的能力,以适应不断变化的工作环境。

因此,这里给大家整理了一份《2025最新大模型全套学习资源》,包括2025最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题等,带你从零基础入门到精通,快速掌握大模型技术!

由于篇幅有限,有需要的小伙伴可以扫码获取!

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

4. 大模型项目实战

学以致用,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

5. 大模型行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

为什么大家都在学AI大模型?

随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。

同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!

这些资料有用吗?

这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


大模型全套学习资料已整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/15 10:14:44

2025小米运动刷步数终极方案:免费自动同步微信支付宝全攻略

2025小米运动刷步数终极方案:免费自动同步微信支付宝全攻略 【免费下载链接】mimotion 小米运动刷步数(微信支付宝)支持邮箱登录 项目地址: https://gitcode.com/gh_mirrors/mimo/mimotion 还在为每天运动步数不够而烦恼吗&#xff1f…

作者头像 李华
网站建设 2026/3/20 7:02:16

内核配置差异对arm64 amd64移植的影响深度剖析

从 x86 到 ARM:一次内核移植踩坑实录最近接手了一个项目,要把一个原本跑在标准 amd64 服务器上的定制 Linux 系统,迁移到基于 arm64 架构的边缘计算设备上。听起来不就是换个 CPU 指令集吗?编译一下不就完了?结果第一轮…

作者头像 李华
网站建设 2026/3/22 19:13:58

GetQzonehistory:如何一键备份QQ空间全部历史说说

在数字记忆时代,QQ空间承载了无数人的青春回忆。每一条说说都是时光的印记,记录着成长的点点滴滴。GetQzonehistory是一款专业的QQ空间数据导出工具,能够帮助您完整备份所有历史说说,让珍贵的数字记忆得到永久保存。 【免费下载链…

作者头像 李华
网站建设 2026/3/19 10:28:09

PyTorch梯度累积模拟更大Batch Size(节省GPU显存)

PyTorch梯度累积模拟更大Batch Size(节省GPU显存) 在深度学习训练中,我们常常面临一个尴尬的局面:模型结构已经设计得足够精巧,数据也准备齐全,结果刚一启动训练,GPU 就报出 CUDA out of memor…

作者头像 李华
网站建设 2026/3/21 2:59:12

Blender MMD Tools完全攻略:从零开始掌握跨平台动画创作

Blender MMD Tools完全攻略:从零开始掌握跨平台动画创作 【免费下载链接】blender_mmd_tools MMD Tools is a blender addon for importing/exporting Models and Motions of MikuMikuDance. 项目地址: https://gitcode.com/gh_mirrors/bl/blender_mmd_tools …

作者头像 李华
网站建设 2026/3/22 8:23:06

一位全加器Verilog实现原理图解说明

从零构建加法器:一位全加器的Verilog实现与底层逻辑揭秘你有没有想过,计算机是怎么做“112”的?在高级语言中,这不过是一行简单的a b表达式。但在硬件层面,这个操作背后藏着一套精密的数字电路系统——而这一切的起点…

作者头像 李华