🚀 总结
ZEROSEARCH 用“模拟搜索引擎的 LLM”替代真实搜索引擎,实现低成本 RL(Reinforcement Learning),加强模型的搜索与推理能力,甚至比真实搜索更强。
[!note] 为什么要做 ZEROSEARCH?
| ❌ 1)真实搜索引擎质量不可控 | ❌ 2)真实 API 成本爆炸 |
|---|---|
| - 文档内容风格不一致 - 有噪声、乱回答 - RL 训练难稳定 | RL rollout 会产生成千上万次检索请求,成本非常高。 例如:Google SerpAPI 6.4 万次请求 ≈$586 而用 14B LLM 模拟只要$70。 |
[!note] 2. ZEROSEARCH 的核心思想
🎯 用一个 LLM 学习“搜索引擎风格”,在训练中模拟搜索,而不是去真的搜。
包括三步:▶ Step 1:先把一个小 LLM(3B/7B/14B)微调成“伪搜索引擎”
- 用真实搜索文档训练模型,让它模仿“搜索引擎风格”
- SFT(Supervised Fine-Tuning) 数据来自真实搜索结果 → LLM 学会输出两类文档:
- Useful 文档(包含答案)
- Noisy 文档(不包含答案)
只需改 prompt 某个词(useful/noisy)(“控制 Useful / Noisy 比例”)就能控制文档质量。
▶ Step 2:RL 训练时,用这个模拟搜索引擎替代真实搜索
RL 对象(Policy 模型,真正要学会“搜索 + 推理 + 回答问题”的模型)在回答问题时流程:
<think> 内部推理(模型内部逻辑) </think> <search> 生成要搜索的 query </search> <information> 伪搜索引擎 LLM 返回五篇文档 </information> <think> 结合文档继续推理 </think> <answer> 最终答案 </answer>▶ Step 3:逐渐增加 Noisy 文档比例(课程学习)
让模型从简单 → 困难:
- 前期:文档质量好
- 后期:随着训练步数增多,Noisy 文档比例越来越高。需要强 reasoning
这等价于把模型从“检索依赖者”训练成“检索+推理大师”。
[!key] 3. ZEROSEARCH 为什么这么强?
⭐ 事实 1:模拟搜索引擎效果比真实搜索好
因为现实的 Google 文档风格不可控,而模拟文档是你能“精准控制难度的训练数据”。
⭐ 事实 2:7B 模拟器 ≈ Google,14B 模拟器 > Google
| 模拟器 | 效果 |
|---|---|
| 3B | 还行 |
| 7B | 和 Google 搜索差不多 |
| 14B | 超过 Google 搜索 |
⭐ 事实 3:RL 可用 REINFORCE、PPO、GRPO 全适配
REINFORCE 效果最好,训练最稳定。
⭐ 事实 4:基座 LLM 无需指令微调
Base 模型训练后能达到 Instruct 同等级别。
非常适合大规模工业训练。