高效处理RAG文档与优化Embedding的方法-开发者社区

一、为什么要做文档预处理

RAG 的重中之重，是对 Embedding 之前的文档做预处理。若不做预处理直接进行向量化存储，会存在以下两个问题：

1.每次有问题进来搜索，都会召回很多大而全的资料，其中部分资料与问题并不相关，既耗费 Token，也不利于节省成本。

2.大量资料涌入后，其中既有答案也有非答案内容，大模型可能会检索到非答案部分，进而产生幻觉。

二、如何进行文档预处理

文档处理的三种常见形式

1）自动分段与清洗：按照字符数分段，容易截断关联信息，一般不建议采用。

2）自定义：自定义分段符和字符数，可控性高、效果最佳，但需要对分段前的文档做预处理。

3）按层级分段：保留标题级别和层级，对长文档友好。

文档处理的关键 Tips

1）分段内容被检索召回后会进入对话上下文，过长的段落切分方式有助于生成更优答案，但会消耗大量 Token，需要做好取舍。

2）“纯答案” 型资料需要补充相关问题背景，因为 Embedding 后的查询过程不具备大模型的语义识别和推理能力，可能无法匹配到 “答案” 与问题的相似性。

3）按层级分段时，可以选择保留层级索引。需要注意层级信息（一般是级别标题）的语义表达，若层级信息具备明确的问题导向，可能导致整个文档的所有分段被检索到，进而造成大量 Token 消耗或回答不准确（真正的答案可能未被召回）。

文本类 Embedding 只能处理文字信息，文档中包含的图片会被忽略。此外，在部分 Embedding 项目中，若导入含图片的 Word 文档，图片会被转成 base64 码，消耗大量 Token。因此，当文档中包含图片时，也有对应的处理方式来提高处理效率和精确度。

图像的三种处理方式

推荐：对图像以注释形式进行标注解释，用于向量检索和模型理解，例如：【附图：模型在 XX 的测评得分】(https://url)
使用 OCR 技术识别图片内容，转存为文字形式后进行向量嵌入。
使用图像理解模型理解图片内容后进行向量嵌入（一般不推荐，因为大模型对图片或图表型内容的理解偏差非常大）。

需要注意的是，图像无法被大语言模型直接输出，需上传到图床手动处理后，将纯图片类内容转成 Markdown 格式或标签，再以文本形式存储。

文末我会附上经过处理后的文档示例，供大家参考，希望能对大家在 RAG 的建设和使用过程中提供帮助。

伙伴们，我们已经一起学习了 RAG 中文档处理和 Embedding 的相关内容。如果今天分享的内容能帮到大家，那真的太棒了

AI时代，未来的就业机会在哪里？

答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具，到自然语言处理、计算机视觉、多模态等核心领域，技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。

掌握大模型技能，就是把握高薪未来。

那么，普通人如何抓住大模型风口？

AI技术的普及对个人能力提出了新的要求，在AI时代，持续学习和适应新技术变得尤为重要。无论是企业还是个人，都需要不断更新知识体系，提升与AI协作的能力，以适应不断变化的工作环境。

因此，这里给大家整理了一份《2025最新大模型全套学习资源》，包括2025最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题等，带你从零基础入门到精通，快速掌握大模型技术！

由于篇幅有限，有需要的小伙伴可以扫码获取！

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

4. 大模型项目实战

学以致用，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

5. 大模型行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

为什么大家都在学AI大模型？

随着AI技术的发展，企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。

同时很多人面临优化裁员，近期科技巨头英特尔裁员2万人，传统岗位不断缩减，因此转行AI势在必行！

这些资料有用吗？

这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。