🌞欢迎来到人工智能的世界
🌈博客主页:卿云阁💌欢迎关注🎉点赞👍收藏⭐️留言📝
📆首发时间:🌹2026年6月2日🌹
✉️希望可以和大家一起完成进阶之路!
🙏作者水平很有限,如果发现错误,请留言轰炸哦!万分感谢!
目录
重排序
RRF倒数排名融合
Reranker 模型重排序
LongContextReorder
RAG Fusion
上下文压缩与过滤
重排序
RRF倒数排名融合
B和A会排在最前面。两份检索列表里都出现了这两个文档,能累计两路排名对应的分数,综合认
可度远高于仅出现在单列表的文档。其中B在向量检索位列第1、BM25位列第2,整体排名更靠
前,最终得分会略高于A;A在BM25排第1、向量检索排第3,综合分数次之。
C仅存在于BM25检索结果中,D仅存在于向量检索结果中,二者都只能计算单路排名分数,得分偏
低,因此会排在A、B之后。
Reranker 模型重排序
Reranker 模型重排序就是:先由检索器粗略召回一批候选文档,再让模型逐个判断“问题和文档是
否真的相关”,重新打分排序,把最能回答问题的文档排到前面。
LongContextReorder
LongContextReorder 是一种检索后上下文重排方法:当 RAG 系统已经检索出一批相关文档,并
且这些文档要一起塞进大模型的长上下文里时,它不会改变文档内容,也不会重新检索,而是调整
这些文档在 prompt 里的摆放顺序。它背后的依据是 “Lost in the Middle” 现象,也就是大模型在长
上下文中通常更容易利用开头和结尾的信息,而中间位置的信息更容易被忽略。因此,如果我们直
接按照相关性从高到低排列文档,最相关的文档可能只有第一篇被模型充分关注,第二、第三篇反
而可能落在中间被弱化。LongContextReorder 的做法是把最相关的文档分散放到上下文的开头
和结尾,把相对不重要的文档放在中间,从而提高关键证据被模型看到和使用的概率。简单说,它
解决的不是“找哪些文档”,而是“找回来的文档怎么摆放,才能让大模型更好地用”。
RAG Fusion
RAG Fusion 是一种把“多角度查询”和“多路结果融合”结合起来的 RAG 优化方法,它的核心思想
是:用户原始问题往往只表达了一个角度,如果只用这一句话检索,可能会漏掉相关但表达方式不
同的资料,所以系统会先让 LLM 根据原问题生成多个不同角度的检索 query,然后分别用这些
query 去检索知识库,得到多组候选文档结果;接着再用 RRF 这类融合方法把多个检索列表合
并、去重并重新排序,让那些在多个查询结果中都排名靠前的文档获得更高优先级。这样做可以同
时提高召回的全面性和排序的稳定性,尤其适合宽泛问题、复杂问题、跨文档问题,或者文档表达
方式很多样的场景。简单说,RAG Fusion 不是只问一次、找一次,而是“从多个角度问,多路找资
料,再把结果融合成一份更可靠的上下文”,最后交给大模型生成答案。
上下文压缩与过滤
上下文压缩与过滤是一种发生在“检索之后、生成之前”的 RAG 后处理技术,它的核心作用是把检
索回来的候选文档变得更短、更干净、更相关。因为检索器命中某个 chunk,并不代表这个 chunk
里的所有内容都对用户问题有用,很多时候真正相关的信息只藏在长文档中的一两句话里,其余内
容可能是背景、价格、版本、售后、重复说明或无关段落;如果把这些内容原封不动塞给大模型,
不仅会增加 token 成本,还可能让模型被噪声干扰,导致回答跑偏。所以上下文压缩与过滤会先根
据用户问题,对候选文档进行筛选、抽取、去重和长度控制,只保留能直接支持回答的证据片段,
再把这些压缩后的上下文交给 LLM。它可以用规则、关键词、embedding 相似度、Reranker 或
LLM 抽取来实现,本质上解决的不是“找不找得到资料”,而是“找回来的资料里,哪些部分真正值
得给模型看”。