news 2026/1/23 10:56:28

【每日一读Day6】Alibaba提出的ZeroSearch (LLM-based)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【每日一读Day6】Alibaba提出的ZeroSearch (LLM-based)

🚀 总结

ZEROSEARCH 用“模拟搜索引擎的 LLM”替代真实搜索引擎,实现低成本 RL(Reinforcement Learning),加强模型的搜索与推理能力,甚至比真实搜索更强。

[!note] 为什么要做 ZEROSEARCH?

❌ 1)真实搜索引擎质量不可控❌ 2)真实 API 成本爆炸
- 文档内容风格不一致
- 有噪声、乱回答
- RL 训练难稳定
RL rollout 会产生成千上万次检索请求,成本非常高。
例如:Google SerpAPI 6.4 万次请求 ≈$586
而用 14B LLM 模拟只要$70

[!note] 2. ZEROSEARCH 的核心思想

🎯 用一个 LLM 学习“搜索引擎风格”,在训练中模拟搜索,而不是去真的搜。
包括三步:
▶ Step 1:先把一个小 LLM(3B/7B/14B)微调成“伪搜索引擎”

  1. 用真实搜索文档训练模型,让它模仿“搜索引擎风格”
  2. SFT(Supervised Fine-Tuning) 数据来自真实搜索结果 → LLM 学会输出两类文档:
    • Useful 文档(包含答案)
    • Noisy 文档(不包含答案)
      只需改 prompt 某个词(useful/noisy)(“控制 Useful / Noisy 比例”)就能控制文档质量。

▶ Step 2:RL 训练时,用这个模拟搜索引擎替代真实搜索
RL 对象(Policy 模型,真正要学会“搜索 + 推理 + 回答问题”的模型)在回答问题时流程:

<think> 内部推理(模型内部逻辑) </think> <search> 生成要搜索的 query </search> <information> 伪搜索引擎 LLM 返回五篇文档 </information> <think> 结合文档继续推理 </think> <answer> 最终答案 </answer>

▶ Step 3:逐渐增加 Noisy 文档比例(课程学习)
让模型从简单 → 困难:

  • 前期:文档质量好
  • 后期:随着训练步数增多,Noisy 文档比例越来越高。需要强 reasoning
    这等价于把模型从“检索依赖者”训练成“检索+推理大师”。

[!key] 3. ZEROSEARCH 为什么这么强?

⭐ 事实 1:模拟搜索引擎效果比真实搜索好
因为现实的 Google 文档风格不可控,而模拟文档是你能“精准控制难度的训练数据”。
⭐ 事实 2:7B 模拟器 ≈ Google,14B 模拟器 > Google

模拟器效果
3B还行
7B和 Google 搜索差不多
14B超过 Google 搜索

⭐ 事实 3:RL 可用 REINFORCE、PPO、GRPO 全适配
REINFORCE 效果最好,训练最稳定。

⭐ 事实 4:基座 LLM 无需指令微调
Base 模型训练后能达到 Instruct 同等级别。
非常适合大规模工业训练。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/17 22:10:03

ImageKnife性能优化实战指南:OpenHarmony图片加载的完整解决方案

作为OpenHarmony开发者&#xff0c;你是否曾经为应用中的图片加载性能问题而烦恼&#xff1f;图片加载缓慢、内存占用过高、列表滑动卡顿&#xff0c;这些问题都直接影响用户体验。今天&#xff0c;我将为你带来ImageKnife图片加载库的终极优化指南&#xff0c;帮助你从性能瓶颈…

作者头像 李华
网站建设 2026/1/23 1:41:01

JeeLowCode新手必看:5分钟快速上手企业级低代码开发框架

JeeLowCode新手必看&#xff1a;5分钟快速上手企业级低代码开发框架 【免费下载链接】jeelowcode &#x1f525;JeeLowCode 【企业级低代码】 是一款专为企业打造的低代码开发框架《免费商用》&#xff0c;以低代码为核心&#xff0c;实现快速开发。提供可视化界面&#xff0c;…

作者头像 李华
网站建设 2026/1/3 8:23:22

Splunk Enterprise for Windows 权限配置漏洞深度研究报告

一、漏洞概述 2025年12月3日&#xff0c;Splunk官方联合Cisco PSIRT披露了一款针对Windows平台Splunk Enterprise的高危权限配置漏洞&#xff0c;漏洞编号为CVE-2025-20386&#xff0c;对应的CWE编号为CWE-732&#xff08;关键资源权限分配错误&#xff09;。该漏洞CVSS v3.1评…

作者头像 李华
网站建设 2025/12/16 22:41:09

谷歌代码规范2025:从团队痛点到高效协作的实战攻略

还在为团队代码风格混乱而苦恼吗&#xff1f;接手新项目时是否因为命名不统一而浪费大量时间&#xff1f;谷歌代码规范作为全球最权威的编码标准&#xff0c;已经帮助无数开发团队解决了这些难题。本文将带你重新认识2025年最新版规范&#xff0c;用全新的视角掌握从C到TypeScr…

作者头像 李华
网站建设 2026/1/16 13:08:22

Graphiti知识图谱构建与AI集成实战指南:从零搭建智能记忆系统

Graphiti知识图谱构建与AI集成实战指南&#xff1a;从零搭建智能记忆系统 【免费下载链接】graphiti 用于构建和查询时序感知知识图谱的框架&#xff0c;专为在动态环境中运行的 AI 代理量身定制。 项目地址: https://gitcode.com/GitHub_Trending/grap/graphiti 你是否…

作者头像 李华
网站建设 2026/1/13 15:19:55

彻底解决大型前端项目痛点:umi模块化拆分与联邦架构完全指南

彻底解决大型前端项目痛点&#xff1a;umi模块化拆分与联邦架构完全指南 【免费下载链接】umi A framework in react community ✨ 项目地址: https://gitcode.com/GitHub_Trending/um/umi 你是否正面临这样的困境&#xff1a;前端项目越来越庞大&#xff0c;构建时间从…

作者头像 李华