news 2026/6/20 7:19:20

RAG信息检索基准评测指标的分析和探索

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
RAG信息检索基准评测指标的分析和探索

这里从多个角度分析和探索RAG信息检索常用的基准和评测指标。

1 BEIR

1.1 通用检索基准 (BEIR)

BEIR是一个用于零样本文本信息检索的标准评估基准。它旨在解决传统模型在单一数据集上评估、难以衡量其真实泛化能力的问题,BEIR集合了18个来自不同任务和领域的公开数据集。

1.2 NDCG

NDCG(Normalized Discounted Cumulative Gain)作为评估指标。NDCG通常用于衡量排名质量,特别是在信息检索中。

1.3 NDCG@10

NDCG@10 是信息检索中衡量搜索结果排名的核心指标,重点关注前10个结果的相关性和排序质量。在BEIR这类评估基准中,它是最关键的模型效果衡量标准。

NDCG@10 的全称是 “归一化折现累积增益在10处”。它的核心思想是:

相关性有等级:每个结果的相关性不是简单的“相关”或“不相关”,而是有多个等级(如0-4分)。

排名越高越重要:排在前面的相关结果对用户价值更大,因此其增益会乘以一个位置折现因子(排名越靠后,折现越多)。

结果归一化:将实际得分除以“理想排序”下的最高可能得分,得到一个介于0到1之间的值。1分表示前10个结果以完美相关性顺序呈现

Elastic官网研究发现,倒数排序融合 (ELSER + BM25)相比单一ELSER检索,NDCG@10提升1.4%;相比单一BM25,提升18%。

其中,ELSER (Elastic Learned Sparse Encoder)是 Elastic 公司专门为零样本语义搜索而设计,其核心特点是利用“稀疏向量”来理解查询意图和上下文,而非仅匹配关键词。

https://www.elastic.co/search-labs/blog/improving-information-retrieval-elastic-stack-hybrid

https://github.com/beir-cellar/beir

2Rouge-L

2.1 Rough

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一组评估文本生成质量的指标。

2.2 Rouge-L

ROUGE-L 是ROUGH的一个变体,基于最长公共子序列。

ROUGE-L是寻找机器生成的文本人工参考摘要之间的最长公共子序列

最长公共子序列,就是两个序列中都出现的最长子序列,元素不需要连续,但顺序必须一致。

2.3 Rough-L计算

ROUGE-L 结合了准确率召回率

召回率= LCS长度 / 参考摘要长度

(生成的摘要包含了多少参考摘要的内容)

准确率= LCS长度 / 生成摘要长度

(生成的摘要中有多少是正确的)

F1分数= 2 × (准确率 × 召回率) / (准确率 + 召回率)

(F1得分是综合平衡得分)

示例如下

参考摘要(A)[这, 只, 猫, 坐, 在, 垫, 上]

生成摘要(B)[垫, 上, 有, 一, 只, 猫]

最长公共子序列的长度 L = 2(例如[只, 猫][垫, 上])。

正确计算

R = 2 / 7 ≈ 0.286

P = 2 / 6 ≈ 0.333

F1 ≈ 0.308

3 检索延迟

3.1 检索延迟

检索延迟通常指从用户发起查询到系统返回结果所经历的时间差。它是一个直接影响用户体验的核心性能指标,延迟过高可能导致用户放弃等待。

3.3 应对方案

为了应对延迟挑战,学术界和工业界提出了多种创新方案:

PLAID引擎:针对先进的“延迟交互检索”范式(如ColBERT模型)进行优化,通过引入质心交互等机制,在保证精度的前提下,将GPU上的检索延迟降低了7倍,CPU上甚至能达到45倍的加速,实现大规模数据集下的毫秒级响应。

Airphant搜索引擎:专为“计算与存储分离”的云环境设计。它使用名为 IoU Sketch 的新型统计索引,通过并行发起多个异步网络请求来获取数据,避免了传统索引的串行等待。实验显示,其端到端延迟在13毫秒到300毫秒之间,比Apache Lucene快8.97倍,比Elasticsearch快113.39倍。

DeepSeek联网搜索优化:从系统工程角度,采用分布式索引、边缘节点缓存、多级缓存体系和查询预取等综合策略,将平均查询响应时间从2.3秒降至0.8秒-2。

4内存效率

4.1 内存效率

内存效率关注的是如何以最小的内存资源消耗,达成特定的计算目标。它是衡量软件或算法在内存使用上“经济性”的核心指标,与检索延迟(你之前关心的速度指标)紧密相关,两者常需权衡。

4.2 优化策略

信息检索领域,内存效率优化无处不在。

索引压缩:搜索引擎(如Elasticsearch/Lucene)会对倒排索引使用多种编码进行压缩,使海量索引能装入内存。

缓存策略:在内存中缓存热点查询结果常用索引块,但需精心设计缓存淘汰算法(如LRU、LFU),在有限的缓存空间内存放最高价值的数据。

向量检索优化:对于AI时代的海量向量数据,采用产品量化(PQ)等技术,将高维向量压缩成短编码,大幅降低内存占用和计算距离时的带宽需求,是实现内存高效近似检索的关键。

reference

---

Improving information retrieval in the Elastic Stack: Hybrid retrieval

https://www.elastic.co/search-labs/blog/improving-information-retrieval-elastic-stack-hybrid

A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models

https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/file/65b9eea6e1cc6bb9f0cd2a47751a186f-Paper-round2.pdf

beir

https://github.com/beir-cellar/beir

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/20 0:39:44

vue和springboot框架开发的星星行李寄存系统_v796vu1c

文章目录 具体实现截图主要技术与实现手段关于我本系统开发思路java类核心代码部分展示结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 具体实现截图 同行可拿货,招校园代理 vuespringboot_v796vu1c 框架开发的星星行李寄存系…

作者头像 李华
网站建设 2026/6/19 21:27:05

【Java毕设全套源码+文档】基于springboot的四川火锅文化网站的设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/6/18 23:49:06

【Java毕设全套源码+文档】基于springboot的洛川县苹果销售管理平台设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/6/15 18:26:52

超越表面正确性:HUMANEVAL+如何重塑代码生成大模型的评估基准

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术! 引言 随着代码生成大型语言模型(LLM)如ChatGP…

作者头像 李华
网站建设 2026/6/19 19:32:42

研究生必备:8款免费AI论文写作工具,半天搞定初稿,全学科覆盖!

如果你是那个正在实验室通宵、对着空白文档发呆、被导师的催稿微信逼到焦虑的研究生;如果你是那个预算有限、查重费用都嫌贵、却要为毕业论文字字斟酌的硕士/博士生——请你停下来,仔细看这篇文章。 我们懂你。懂你面对庞大文献时的茫然,懂你…

作者头像 李华
网站建设 2026/6/18 13:33:56

C语言实现猜数字游戏(附带源码)

一、项目背景详细介绍在程序设计入门阶段,小游戏类项目是最容易激发学习兴趣、也是最适合综合训练基础知识的实践题型。其中,**“猜数字游戏”**几乎是所有编程语言教学中的经典案例。所谓猜数字游戏,指的是:程序随机生成一个整数…

作者头像 李华