news 2026/6/2 5:05:38

阿里WebSailor开源:打破开源智能体天花板,多项核心指标逼近闭源系统

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
阿里WebSailor开源:打破开源智能体天花板,多项核心指标逼近闭源系统

阿里WebSailor开源:打破开源智能体天花板,多项核心指标逼近闭源系统

【免费下载链接】WebSailor-3B项目地址: https://ai.gitcode.com/hf_mirrors/Alibaba-NLP/WebSailor-3B

智东西7月8日消息,阿里巴巴通义实验室于昨日正式对外开源新一代网络智能体WebSailor,该系统在三大权威评测基准中创下开源领域最佳成绩,成为全球首个在高难度网页任务中接近闭源方案能力水平的开源智能体。WebSailor具备在开放网络环境中自主导航、多源信息整合及复杂逻辑推理的能力,特别适用于解决路径模糊、信息分散的高难度检索任务。其技术报告于7月3日登上Hugging Face Papers日热度榜首,相关模型代码、训练方法及评测数据集已同步在Gitcode开源(仓库地址:https://gitcode.com/hf_mirrors/Alibaba-NLP/WebSailor-3B)。

作为新一代网络智能体的代表,WebSailor展现出惊人的任务处理能力。该智能体能够模拟人类浏览网页的行为,通过自主跳转页面来收集所需信息,并对这些信息进行整合与推理,最终给出准确的答案。这种能力使得WebSailor在面对复杂的检索任务时,表现得游刃有余。无论是处理需要多步判断的问题,还是应对信息来源分散的情况,WebSailor都能够凭借其强大的自主导航和信息整合能力,高效地完成任务。

一、三大评测基准创佳绩,开源领域实现断层领先 WebSailor-72B大模型在国际权威评测中表现抢眼,在BrowseComp-en、BrowseComp-zh和GAIA信息检索子集分别取得12.0%、30.1%和55.4%的优异成绩。其中BrowseComp评测集由OpenAI精心设计,包含1266个高难度网页检索任务,全面考察智能体的搜索策略、信息筛选、多源整合及逻辑推理综合能力。测试结果显示,WebSailor不仅大幅超越DeepSeek R1等主流开源方案,更在多个核心指标上首次实现对Grok-3、Doubao-Search等闭源系统的逼近。值得关注的是,该模型在专注高难度任务训练的同时,仍保持了对基础问答任务的强大泛化能力——在SimpleQA基础问答子集测试中,WebSailor-72B以93.5%的准确率领先WebDancer、WebThinker等一众开源智能体。

这一系列成绩的取得,充分证明了WebSailor在网络智能体领域的领先地位。它不仅在高难度任务中展现出卓越的能力,还在基础问答任务中保持了较高的准确率,体现了其强大的综合性能。这种性能上的优势,使得WebSailor在众多开源智能体中脱颖而出,成为了该领域的佼佼者。

二、创新后训练体系,攻克复杂推理难题 WebSailor的核心技术突破源于其独创的三段式后训练框架,通过数据生成、冷启动调优与强化学习的有机结合,实现智能体复杂任务处理能力的跨越式提升:

  1. 高不确定性任务合成技术 通义实验室构建了包含10万+样本的SailorFog-QA专用训练集,创新性地采用"网页随机游走"技术模拟人类浏览行为,在真实互联网环境中构建动态知识图谱。通过图结构深度采样与信息模糊化处理,人为制造路径非线性、起点不确定的多跳推理任务,显著提升训练数据的复杂度与不确定性。这种数据生成方式,使得WebSailor在训练过程中能够接触到各种复杂的情况,从而提高了其在实际应用中的应对能力。

  2. 专家路径压缩微调(RFT) 基于Qwen-2.5系列基础模型(涵盖3B至72B全尺寸),通过专家决策路径的结构化压缩与推理步骤显式化重构,大幅增强智能体在复杂任务中的轨迹可控性。这种微调方法有效解决了传统智能体在多步骤推理中常见的路径漂移问题,使模型能够更稳定地执行复杂指令。通过这种方式,WebSailor能够更好地理解和执行复杂的任务指令,提高了任务的完成质量和效率。

  3. 双阶段强化学习算法DUPO WebSailor创新性地提出Duplicating Sampling Policy Optimization(DUPO)强化学习框架,采用动态任务采样策略:在训练初期自动过滤简单任务,集中资源攻克高难度轨迹;训练中期实施困难样本重复采样机制,实现关键能力的精准强化。该算法使复杂任务训练效率提升2-3倍,同时有效避免模型陷入局部最优解。这种高效的强化学习算法,为WebSailor的性能提升提供了有力的支持。

三、构建Web智能体技术矩阵,引领开源生态发展 WebSailor是阿里巴巴通义实验室Web智能体技术路线图的第三款里程碑产品:2025年1月发布的WebWalker聚焦评测体系建设,构建了首个标准化网页智能体评估基准;5月推出的WebDancer重点突破自主检索策略学习,强化多源信息搜集能力;本次发布的WebSailor则实现了任务构建、策略优化与强化学习的全流程创新。通义实验室表示,未来将持续完善"浏览器原生智能体"技术框架,重点拓展跨模态信息处理与长周期任务规划能力。

从WebWalker到WebDancer,再到如今的WebSailor,阿里巴巴通义实验室在Web智能体领域的技术积累不断深化。每一款产品的发布,都在前一款产品的基础上进行了创新和改进,形成了一个完整的技术矩阵。这种技术上的不断进步,不仅推动了Web智能体技术的发展,也为开源生态的繁荣做出了重要贡献。

结语:开源智能体迈向实用化临界点 WebSailor通过创新的数据构建方法、精细化调优策略和高效强化学习算法,成功突破开源智能体在复杂网络任务中的性能瓶颈。尽管与闭源系统仍存在一定差距,但其在高难度检索任务中展现的接近商业系统的能力,标志着开源网络智能体正从学术研究走向实际应用。随着技术框架的持续完善和开源生态的协同发展,WebSailor有望成为企业级智能检索系统的标准化基础组件,推动智能体技术在垂直领域的规模化落地。

WebSailor的开源,为整个行业带来了新的机遇和挑战。它不仅为开发者提供了一个强大的工具,也为智能体技术的发展指明了方向。相信在不久的将来,随着WebSailor技术的不断完善和开源生态的不断壮大,智能体技术将会在更多的领域得到应用,为人们的生活和工作带来更多的便利。

【免费下载链接】WebSailor-3B项目地址: https://ai.gitcode.com/hf_mirrors/Alibaba-NLP/WebSailor-3B

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/1 10:08:26

8、搭建文件服务器:NFS与Samba的使用指南

搭建文件服务器:NFS与Samba的使用指南 1. NFS新导出激活 在NFS中有一点值得一提,NFS守护进程启动时会读取 /etc/exports 文件。这意味着添加新的导出后,可通过重启服务器或NFS守护进程来激活它们。但在生产环境中,重启NFS或服务器并不实际,这会中断当前使用的用户,还…

作者头像 李华
网站建设 2026/5/30 21:09:46

13、网络服务配置与Apache服务器搭建指南

网络服务配置与Apache服务器搭建指南 在网络环境中,合理配置网络服务以及搭建高效的Web服务器至关重要。本文将详细介绍DNS服务器测试、NTP服务器搭建以及Apache服务器的安装与配置等内容。 1. DNS服务器测试 可以使用 dig 命令来测试DNS服务器。在Debian系统中,该工具包…

作者头像 李华
网站建设 2026/5/30 20:20:52

记录一次伟大的实践--上亿数据快速模糊匹配方案

问题: 有一千二百万条url ,还有1亿1千万的关键词,关键词一定出现在某条url的名字里,但是关键词不完全和名字相等,并且可能一个关键词同时出现在多个url中,所有和关键词匹配的url都要列出来 背景&#xff1a…

作者头像 李华
网站建设 2026/5/30 18:27:16

3、大规模基础设施管理指南

大规模基础设施管理指南 1. 开源软件许可 开源软件许可对组织使用软件有重要影响,例如GNU Affero通用公共许可证(AGPL)。若修改了采用AGPL许可的开源软件,必须将修改后的软件提供给所有网络用户。这意味着,如果公司有专有软件,同时使用了AGPL许可的开源软件,专有软件可…

作者头像 李华
网站建设 2026/6/1 2:49:34

9、KVM虚拟化与数据库管理全解析

KVM虚拟化与数据库管理全解析 1 KVM虚拟化存储与镜像选择 1.1 共享存储选项 若需要共享存储带来的灵活性,可考虑以下几种共享存储类型: - NFS :适合使用专用NFS服务器或NFS设备。在企业网络中,NFS设备用于VM共享存储更为普遍。例如NetApp这类NFS设备,相比运行NFS的L…

作者头像 李华