news 2026/1/22 2:18:23

Holo1.5:开启智能交互新纪元的计算机使用代理基础模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Holo1.5:开启智能交互新纪元的计算机使用代理基础模型

Holo1.5:开启智能交互新纪元的计算机使用代理基础模型

【免费下载链接】Holo1.5-7B项目地址: https://ai.gitcode.com/hf_mirrors/Hcompany/Holo1.5-7B

模型概述

计算机使用(CU)代理是一类能够代表用户与真实应用程序(包括网页、桌面和移动应用)进行交互的人工智能系统。它们具备界面导航、元素操作和内容问答等能力,为用户打造强大的自动化与生产力工具。随着数字化任务日益复杂,CU代理的重要性愈发凸显,它们让人类能够安全高效地将复杂数字任务委托给AI处理。

Holo1.5系列模型为构建此类代理提供了业界领先的基础能力。该系列在跨网页、计算机和移动环境的用户界面(UI)定位基于UI的问答(QA)任务中表现卓越,在多项权威基准测试中取得优异成绩,包括Screenspot-V2、Screenspot-Pro、GroundUI-Web、Showdown以及新发布的WebClick数据集。

Holo1.5系列提供三种不同规模的模型以满足多样化部署需求:

  • 3B版本:继承自Qwen模型的许可协议
  • 7B版本:完全开源,采用Apache 2.0许可
  • 72B版本:仅限研究使用(非商业用途)。商业用途请联系我们获取授权

这些模型旨在为下一代CU代理(如Surfer-H)提供可靠、准确且高效的技术基础,使其能够以前所未有的能力操控真实应用程序。

  • 开发机构H公司
  • 模型类型:面向计算机使用代理的视觉语言模型(VLM)
  • 微调基础模型:Qwen/Qwen2.5-VL-7B-Instruct
  • 技术博客:https://www.hcompany.ai/blog/holo-1-5
  • 许可协议:Apache 2.0许可协议

训练策略

Holo1.5模型采用高质量专有数据进行UI理解和动作预测训练,遵循多阶段训练流程。训练数据集经过精心筛选,融合了开源数据集、大规模合成数据和人工标注样本,形成全面的训练素材。

训练过程分为两大阶段:首先进行大规模监督微调,随后实施在线强化学习(GRPO)。最终模型支持高达3840×2160像素的高分辨率输入,能够精准高效地解析复杂屏幕界面并预测操作动作。

性能表现

UI定位任务的突破性进展

UI定位是指代理在用户界面中精确识别元素(按钮、文本框、图片等)位置的能力。对于CU代理而言,这项能力至关重要——无论是点击按钮、填写表单还是读取信息,都需要准确定位界面元素。

我们在多个标准UI定位基准上对Holo1.5模型进行了全面评估,包括Screenspot-V2、Screenspot-Pro、GroundUI-Web、Showdown以及新推出的WebClick。

评估结果显示:

  • 7B和72B版本模型性能超越所有现有模型,平均定位精度提升4.5%
  • 3B版本虽规模较小,但性能可与其他7B级模型媲美,展现出优异的资源效率

这些成果在开源UI定位领域建立了新的帕累托最优边界,实现了模型规模与定位精度之间的最佳平衡,为CU代理技术树立了新标准。

该图展示了不同模型在UI定位精度与模型大小之间的权衡关系。Holo1.5系列模型在图中形成明显的优势区域,表明在相同计算资源下能够提供更高的定位精度,为开发者选择适合部署需求的模型提供了直观参考。

此图表对比了Holo1.5系列与其他主流模型在各项UI定位基准测试中的表现。通过柱状图可以清晰看到Holo1.5-72B在多数任务中处于领先位置,7B版本也显著优于同级别竞品,验证了该系列模型在UI定位任务上的全面优势。

模型WebClickShowdownScreenSpot-v2ScreenSpot-ProGround-UI-1KOSWorld-G平均值
Holo1.5-3B81.4567.5091.6651.4983.2061.5772.81
Holo1.5-7B90.2472.1793.3157.9484.0066.2777.32
Holo1.5-72B92.4376.8494.4163.2584.5071.8080.54
Qwen2.5-VL-3B71.2050.3080.0029.3076.4034.3156.92
Qwen2.5-VL-7B76.5152.0085.6029.0080.7040.5960.73
Qwen2.5-VL-72B88.2941.0093.3055.6085.4061.9670.93
UI-TARS-1.5-7B86.1058.0094.0039.0084.2061.4070.45
Holo1-7B84.0464.2789.8526.0678.5047.2565.00
Holo1-3B79.3559.9688.9123.6674.7542.1661.47
UI-Venus-7B84.4467.3294.1050.8082.3058.8072.96
UI-Venus-72B77.0075.5895.3061.9075.5070.4075.95
Sonnet 493.0072.0093.0019.1084.0059.6070.12

表1:主流模型的定位基准测试分数。粗体表示当前最佳性能,斜体数据来自先前报道,常规字体数据为内部复现结果

屏幕内容理解与问答能力的卓越表现

对于GUI代理而言,精确的定位能力固然重要,但理解界面结构和功能以实现有效交互同样关键。为评估这些综合能力,我们在多个GUI问答基准上测试了Holo1.5模型,包括ScreenQA Short、ScreenQA Complex、VisualWebBench和WebSRC。这些基准测试全面衡量模型对UI的理解和推理能力,确保其能在各种应用场景中准确执行任务。

该图呈现了模型在UI问答性能与参数量之间的关系。Holo1.5系列模型形成的曲线明显位于其他模型上方,表明其在相同模型规模下能够提供更优的问答性能,尤其72B版本在保持高性能的同时实现了效率突破。

此图表展示了不同模型在各项UI问答任务中的得分情况。Holo1.5-72B在所有测试中均表现最佳,7B版本也显著领先于同级别模型,证明了该系列在理解复杂界面内容方面的强大能力,这对构建实用的计算机使用代理至关重要。

模型VisualWebBenchWebSRCScreenQAShortScreenQAComplex平均值
Holo1.5-3B78.5094.8087.9081.4085.65
Holo1.5-7B82.6095.9091.0083.2088.17
Holo1.5-72B83.8097.2091.9087.1090.00
Qwen2.5-VL-3B58.0093.0086.0076.0078.25
Qwen2.5-VL-7B69.0095.0087.0081.1083.02
Qwen2.5-VL-72B76.3097.0087.9083.2086.10
UI-TARS-1.5-7B79.7092.9088.7079.2085.12
Holo1-3B54.1093.9078.3053.5069.95
Holo1-7B38.1095.3083.3065.1070.45
UI-Venus-7B60.9096.6086.3082.3081.52
UI-Venus-72B74.1096.7088.6083.3085.67
Claude-Sonnet-458.9096.0087.0075.7079.40

表2:主流模型的屏幕内容问答基准测试分数。粗体表示当前最佳性能

Holo1.5模型在GUI问答任务中表现出令人印象深刻的能力,较现有最佳模型提升3.9%。这一成果证明其在网页和桌面环境中具备强大的视觉感知能力,这对于计算机使用代理完成复杂任务至关重要。

演示体验

观看演示视频,了解如何在计算机使用场景中与模型进行交互:

您也可以在Hugging Face 空间体验实时演示。

未来展望

我们的目标是构建经济高效且可靠的计算机使用代理。Holo1.5的发布是实现这一愿景的重要一步,有助于促进该技术的信任度和广泛采用。

这一里程碑仅仅是开始——在未来几周,我们将推出更多基于Holo模型的新工具和代理应用。

敬请期待——我们才刚刚起步!

引用格式

@misc{hai2025holo15modelfamily, title={Holo1.5 - Open Foundation Models for Computer Use Agents}, author={H Company}, year={2025}, url={https://huggingface.co/collections/Hcompany/holo15-68c1a5736e8583a309d23d9b}, }

【免费下载链接】Holo1.5-7B项目地址: https://ai.gitcode.com/hf_mirrors/Hcompany/Holo1.5-7B

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/10 17:05:27

如何利用Llama-Factory镜像快速申请GPU算力资源?操作手册来了

如何利用Llama-Factory镜像快速申请GPU算力资源?操作手册来了 在大模型时代,谁能以最低门槛、最快速度完成专属AI能力的构建,谁就掌握了先机。然而现实中,大多数团队面临的现实是:想微调一个LLM,光环境配置…

作者头像 李华
网站建设 2026/1/14 11:24:29

37、使用 GDB 进行调试的全面指南

使用 GDB 进行调试的全面指南 1. 核心转储与 GDB 查看核心文件 在发生核心转储后,我们可以在 /corefiles 目录下找到类似 core.sort-debug.1431425613 这样的文件。若想了解更多信息,可参考手册页 core(5) 。 下面是一个使用 GDB 查看核心文件的示例会话: $ arm-…

作者头像 李华
网站建设 2026/1/17 5:43:14

轻量化模型效能跃升:DeepSeek-R1-Distill-Qwen-1.5B如何重塑推理范式

一、架构设计的分野:创新模块化与传统堆叠的路径之争 【免费下载链接】DeepSeek-R1-Distill-Qwen-1.5B DeepSeek-R1-Distill-Qwen-1.5B:基于大规模强化学习与预训练的深度模型,具备卓越推理能力,支持数学、编程等领域任务。经蒸馏…

作者头像 李华
网站建设 2026/1/18 19:15:45

34、打印系统与自动化FTP操作

打印系统与自动化FTP操作 1. 打印系统的操作系统适配 在处理打印系统时,需要根据不同的操作系统调用相应的打印函数。以下是一个根据操作系统类型选择对应打印函数的代码示例: case $(uname) in SYSTEMV)# Call the AIX SysV printing functionAIX_SYSV_printing;; HP-UX…

作者头像 李华
网站建设 2026/1/14 22:56:00

38、系统用户监控与磁盘识别脚本详解

系统用户监控与磁盘识别脚本详解 在系统管理中,对用户操作进行监控以及准确识别磁盘硬件是非常重要的任务。下面将详细介绍相关的脚本和操作方法。 监控其他管理用户 在系统管理过程中,我们常常需要对用户操作进行审计。通过一个重写后的脚本,我们可以快速设置类似 broo…

作者头像 李华