news 2025/12/23 11:25:45

CRINN:通过强化学习自动优化近似近邻算法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CRINN:通过强化学习自动优化近似近邻算法

概述

本文的重点是优化高维向量空间中的近似近邻搜索(ANNS)。

近似近邻搜索是一种以略微牺牲搜索精度为代价来显著提高搜索速度的技术,最近已成为检索增强生成(RAG)和基于代理的 LLM 应用基础技术的组成部分。

传统的优化方法是由人工专家进行剖析、分析缓存缺失、调整数据结构并反复手动调整参数。

然而,这种方法既专业又耗费人力,而且在跟上硬件和应用环境的发展方面存在局限性。

因此,作者提出了一种新的优化框架–CRINN,它结合了 LLM 和强化学习。

CRINN 将代码执行速度视为一种奖励,并通过基于对比学习的强化学习自动生成高效的 ANNS 代码。

这样就能在不依赖人工调整的情况下生成连续改进的实现,从而在检索性能方面实现新的突破。

建议的方法

CRINN 将 ANNS 视为一个具有强化学习功能的优化问题,并将强化学习与对比学习相结合,以提高性能。
具体来说,该设计将现有的实现代码及其执行速度纳入提示,并允许 LLM 对某种实现更快的原因进行对比分析。

这样,模型就能学习到提高速度的模式,并生成新的、更好的代码。
生成的代码会被执行,并根据速度和可重复性给予奖励。

奖励用于执行基于组相对策略优化(GRPO)的强化学习,并按顺序更新模型。

奖励设计还侧重于每秒查询次数(QPS)和召回率之间的权衡,召回率范围[0.85,0.95]内的曲线下面积被用作标量奖励。

此外,以现有的名为 GLASS 的 ANNS 库为初始基础,对每个模块进行了顺序优化:图构建、探索和完善。

这种结构化方法将传统的专家协调自动化,并能开发出高效的搜索算法。

实验

实验测试了 CRINN 在 SIFT-128、GIST-960、MNIST-784、GloVe-25、GloVe-100 和 NYTimes-256 六个基准数据集上的性能。

我们选择了具有代表性的开源 ANNS 实现(如 ParlayANN、GLASS、NNDescent、PyNNDescent、Vearch 和 Voyager)进行比较。只使用 SIFT-128(欧氏距离)进行训练,然后根据其他数据集评估泛化性能。
结果,CRINN 在 MNIST-784 和 GIST-960 数据集上的处理速度提高了 85%,图构建模块的改进尤为显著。

另一方面,在一些数据集(如 NYTimes-256)上也观察到了性能下降,这表明优化可能会受到距离规模和数据特征的限制。
此外,增量模块优化的有效性也得到了证明,证实了底层 GLASS 持续改进的潜力。

总之,CRINN 集速度和准确性于一身,优于现有方法,为使用强化学习进行代码优化提供了一个新方向。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/19 0:19:38

【Java毕设全套源码+文档】基于springboot的四川火锅文化网站的设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2025/12/19 0:19:23

【Java毕设全套源码+文档】基于springboot的洛川县苹果销售管理平台设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2025/12/19 0:18:24

超越表面正确性:HUMANEVAL+如何重塑代码生成大模型的评估基准

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术! 引言 随着代码生成大型语言模型(LLM)如ChatGP…

作者头像 李华
网站建设 2025/12/19 0:18:16

研究生必备:8款免费AI论文写作工具,半天搞定初稿,全学科覆盖!

如果你是那个正在实验室通宵、对着空白文档发呆、被导师的催稿微信逼到焦虑的研究生;如果你是那个预算有限、查重费用都嫌贵、却要为毕业论文字字斟酌的硕士/博士生——请你停下来,仔细看这篇文章。 我们懂你。懂你面对庞大文献时的茫然,懂你…

作者头像 李华
网站建设 2025/12/19 0:17:48

C语言实现猜数字游戏(附带源码)

一、项目背景详细介绍在程序设计入门阶段,小游戏类项目是最容易激发学习兴趣、也是最适合综合训练基础知识的实践题型。其中,**“猜数字游戏”**几乎是所有编程语言教学中的经典案例。所谓猜数字游戏,指的是:程序随机生成一个整数…

作者头像 李华
网站建设 2025/12/19 0:16:02

python-uniapp小程序烩面店餐饮饭馆餐桌预订点餐系统的设计与实现_oa17g41j

文章目录系统截图项目技术简介可行性分析主要运用技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!系统截图 python-uniapp_oa7给1j 小程序烩面店餐饮饭馆餐桌预订点餐系统的设计与实现 项目技术简介 …

作者头像 李华