RAG翻车现场终结者！Agentic-R双视角打分，小白也能上手的大模型检索神器-开发者社区

1 背景：传统 RAG 的“单跳”天花板

传统检索增强生成（RAG）=「一次检索 + 一次生成」。
当问题需要多跳推理（例：A 比 B 大几岁？→ 先查 A 出生年 → 再查 B 出生年）时，单跳检索往往“一步错、步步错”。

图1 经典 Agentic Search 流程

Agentic Search把 RAG 升级成「多轮推理-检索」循环：LLM 像侦探一样，边思考边查资料，直到凑齐证据链。
然而，检索器仍沿用老掉牙的“语义相似度”方案——只关心“这段文字像不像答案”，不关心“这段文字能不能把推理引向正途”。于是高相似但误导性的段落被当成宝贝，最终答案翻车。

2 方案：双视角打分 + 双向飞轮

人大高瓴 & 百度提出一套面向智能搜索的检索器训练框架。与传统单轮检索增强生成（RAG）只关注“局部段落效用”不同，同时考虑：

局部查询-段落相关性
全局答案正确性

两者共同衡量段落在多轮智能搜索中的真实效用。

图2 训练框架

2.1 训练数据怎么来？

给定一条 Agent 轨迹
T = {t₁,q₁,D₁, … , tₙ,A}
对每个中间查询qᵢ，从语料里先捞 20 条候选段落pᵢ,₁…pᵢ,₂₀，然后打两份分：

Local Relevance（LR）
用 Qwen2.5-72B 做「列表式」相关性打分（0–100），鼓励段落直接回答qᵢ。
若能推断出qᵢ的“子答案”，一并喂给 LLM 做参考，减少幻觉。
Global Answer Correctness（GAC）
把pᵢ,ⱼ塞回 Agent，让它跑完后续所有轮次，看最终答案是否命中标准答案（EM=1/0）。
这一步把“局部有用”升级为“全局正确”，过滤掉会把推理带歪的高相似段落。

排序规则
先按 GAC 降序，再按 LR 降序；Top-1 且 GAC=1 & LR≥60 为正例，其余做负例，每查询凑 16 条样本。

2.2 模型怎么训？

输入：原始问题Q+ 当前查询qᵢ，用[SEP]拼接，不引入历史查询（实验表明历史查询会引入噪声）。
损失：对比学习，in-batch + 跨 GPU 负样本，温度 0.01。
初始化：直接热启 E5-base，2 epoch，lr 2e-5。

2.3 飞轮怎么转？

算法1 迭代优化伪代码

第 k 轮用Agentic-Rₖ₋₁做环境，PPO 训出更强Agentₖ；
用Agentₖ产生新轨迹，构造更高质量训练集；
用新数据训出Agentic-Rₖ；
重复 2 轮即收敛。

3 Agentic-R 用两轮迭代，让检索器“长眼睛”

Agentic-R 在 7 个数据集、3 种不同搜索 Agent 上平均提升 2–3 个绝对 EM 点；同时让搜索轮数**减少 10–15%**。
两轮迭代后收益饱和，继续训反而轻微掉点。

表1 主实验结果（7 个 QA 数据集，EM 分数）

图3 平均搜索轮数对比

图4 迭代轮数 vs 性能

4 一张图看懂“为什么 E5 会翻车”

表6 Case Study（HotpotQA）

E5 把“Get Shorty”当成第三部大片，结果一路检索“莫须有”的 honky-tonk；
Agentic-R 直接锁定“Urban Cowboy”+“Gilley’s Club”，一步直达正确答案Mickey Gilley。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

Sa-Token 详细配置指南：从入门到生产环境最佳实践！

RAG翻车现场终结者！Agentic-R双视角打分，小白也能上手的大模型检索神器

1 背景：传统 RAG 的“单跳”天花板

2 方案：双视角打分 + 双向飞轮

2.1 训练数据怎么来？

2.2 模型怎么训？

2.3 飞轮怎么转？

3 Agentic-R 用两轮迭代，让检索器“长眼睛”

4 一张图看懂“为什么 E5 会翻车”

学AI大模型的正确顺序，千万不要搞错了

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

什么是 JWT？一文彻底搞懂 JSON Web Token（附 Spring Boot 实战）

Navicat Premium 17 深度测评：免费版 vs 付费版怎么选？AI 助手到底值不值？

智能化浪潮下，工业HMI液晶屏的三大发展趋势：更高集成、更智能交互、更坚韧可靠

向量数据库实战避坑指南，从“勉强能用”到“稳定靠谱”的进阶之路

基于目标检测的智能停车场的设计与实现(yolov8)-大数据深度学习算法毕设毕业设计项目flask

1 背景：传统 RAG 的“单跳”天花板

2 方案：双视角打分 + 双向飞轮

2.1 训练数据怎么来？

2.2 模型怎么训？

2.3 飞轮怎么转？

3 Agentic-R 用两轮迭代，让检索器“长眼睛”

4 一张图看懂“为什么 E5 会翻车”

学AI大模型的正确顺序，千万不要搞错了

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

Sa-Token 详细配置指南：从入门到生产环境最佳实践！

什么是 JWT？一文彻底搞懂 JSON Web Token（附 Spring Boot 实战）

Navicat Premium 17 深度测评：免费版 vs 付费版怎么选？AI 助手到底值不值？

智能化浪潮下，工业HMI液晶屏的三大发展趋势：更高集成、更智能交互、更坚韧可靠

向量数据库实战避坑指南，从“勉强能用”到“稳定靠谱”的进阶之路

基于目标检测的智能停车场的设计与实现(yolov8)-大数据深度学习算法毕设毕业设计项目flask

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】