news 2026/5/23 16:49:09

ToolTrain:利用 LLM 进行资源库深度搜索和问题定位的新方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ToolTrain:利用 LLM 进行资源库深度搜索和问题定位的新方法

摘要

本文重点讨论软件开发中的问题定位问题。

问题本地化是指以自然语言编写的错误报告为线索,识别代码库中需要修复的代码的过程。
对于大型代码库来说,这一过程既耗时又耗力,而且会大大降低开发效率。

近年来,LLM 在代码生成和测试生成方面取得了成功,LLM 代理与代码库搜索工具的结合有望实现自动化。
然而,这需要一种被称为 "版本库深度搜索 "的复杂搜索,它要求 LLM 具备多阶段推理和高级工具调用能力。

现有的 LLM 面临着工具调用错误和推理不一致导致的不准确问题。
因此,作者提出了一种名为 ToolTrain 的新工具集成学习框架,它能让 LLM 在有效利用工具的同时探索资源库。

建议的方法

拟议的 ToolTrain 方法包括两个阶段的学习过程。

第一阶段是 “拒绝采样监督微调”。

在这一阶段,只选择 LLM 使用工具生成的、到达正确代码点的高质量轨迹作为训练数据。

通过这种方式,模型将学习资源库搜索任务的基本格式以及如何调用工具。

第二阶段是工具集成强化学习。

在这一阶段,LLM 会进行试错搜索,并将搜索结果作为奖励信号。奖励被计算为是否找到正确代码段的评估指标,以及代码段的排序是否恰当。

这样,模型就能避免错误的工具调用,并更有效、更有策略地进行探索。

此外,作者还设计了一个名为 "RepoSearcher "的轻量级探索代理,它提供了一套工具(如文件结构检索、函数搜索、类搜索)。
这种设计使 LLMs 能够避免冗余搜索,并在逐步推理的同时实现高精度定位。

实验

为了验证所提方法的有效性,作者使用基于真实 GitHub 问题的评估数据集 SWE-Bench-Verified 进行了实验。

作为基准,使用 Recall@k、MAP、MRR 和 nDCG@5 等多维指标评估了文件和函数级别的问题定位精度。
比较对象包括现有框架(如 Agentless、LocAgent 和 CoSIL)以及商业模型(如 GPT-4o 和 Claude-3.7)。

结果表明,在 ToolTrain 上训练的模型始终比类似规模的 LLM 显示出更高的准确性,并且优于 Claude-3.7,尤其是在函数级定位方面。
ToolTrain-7B 模型也比其他使用 32B 规模模型的框架表现出更高的准确性,这表明即使使用小规模模型,有效的强化学习也有助于提高性能。

此外,研究还证实,定位精度的提高也与问题解决(错误修复成功率)的提高直接相关。特别是,当与 関数レベルRecall@5で68.55を達成し 和补丁生成模型相结合时,ToolTrain-32B 的修复成功率最高,达到 31.6%。

这些结果表明,ToolTrain 是显著提高 LLM 资源库探索能力的有效方法。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/22 14:33:45

springboot师生健康信息管理系统(11520)

有需要的同学,源代码和配套文档领取,加文章最下方的名片哦 一、项目演示 项目演示视频 二、资料介绍 完整源代码(前后端源代码SQL脚本)配套文档(LWPPT开题报告)远程调试控屏包运行 三、技术介绍 Java…

作者头像 李华
网站建设 2026/5/23 10:26:34

边缘AI Agent实时推理难题全解析(低延迟高能效方案大公开)

第一章:边缘AI Agent推理速度的核心挑战在边缘计算环境中部署AI Agent时,推理速度面临多重技术瓶颈。受限的硬件资源、实时性要求以及模型复杂度之间的矛盾,使得优化推理性能成为关键课题。硬件资源限制 边缘设备通常配备低功耗处理器&#x…

作者头像 李华
网站建设 2026/5/21 17:52:14

cmake_第二章 CMake基础语法_set(),缓存变量set(CACHE)

文章目录第二章 CMake基础语法2.4 cmake定义普通变量set()2.4.1 set() 语法格式2.4.2 变量类型和作用域详解2.4.3 CMake运行脚本 .cmake 文件2.4.4 编译 .cmake脚本-- cmake -P选项2.4.5 使用-D选项定义变量2.4.6 普通变量总结2.5 CMake定义缓存变量set(CACHE)2.5.1 缓存变量语…

作者头像 李华
网站建设 2026/5/23 12:48:03

python-flask-django基于BS架构的小区物业管理系统设计与实现_rsr3ei73

文章目录系统截图项目技术简介可行性分析主要运用技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!系统截图 python-flask-djangoBS_rsrei73 架构的小区物业管理系统设计与实现基于 项目技术简介 Python…

作者头像 李华
网站建设 2026/5/22 2:30:51

视觉SLAM十四讲解读-(v2.p85)李代数求导(扰动模型-左乘)

视觉SLAM十四讲解读-(v2.p85)李代数求导(扰动模型-左乘)1. 问题背景和目标 这里采用扰动模型(左乘)来求导。对旋转矩阵 RRR 进行一次左扰动 ΔR\Delta RΔR,设左扰动 ΔR\Delta RΔR 对应的李代数为 φ\varphiφ,目标是计算 ∂(Rp…

作者头像 李华
网站建设 2026/5/23 5:57:01

免费彻底解决找不到d3dx10_39.dll文件 无法运行软件游戏问题

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

作者头像 李华