news 2026/2/12 3:30:13

基于数万次真机评测,RoboChallenge 首份年度报告发布

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
基于数万次真机评测,RoboChallenge 首份年度报告发布

Datawhale分享

年度报告:RoboChallenge

当大语言模型在数字世界不断刷新人类认知边界,一场关于 AI 如何“扎根”现实物理世界的革命正悄然进行。今日,全球首个具身智能大规模真机评测平台—— RoboChallenge 正式发布首份年度报告。报告基于过去数月内(2025 Q4~2026 Q1)平台完成的数万次严苛远程真机测试,以大规模、标准化、可复现的数据,客观揭示了当前视觉-语言-动作模型在真实物理环境中的能力边界与共性挑战,为具身智能(Embodied AI)从实验室迈向通用化,提供了不可或缺的“公正标尺”与行动指南。

从数字智能到物理智能:行业呼唤“真实考场”

近年来,大语言模型与视觉语言模型取得了爆发式突破,人工智能在感知、认知与推理层面展现出惊人潜力。然而,将这种能力可靠地赋予机器人,使其在复杂多变的物理世界中理解、决策并执行任务,仍是横亘在研究者面前的巨大挑战。真机测试长期面临难以复现、缺乏统一标准、成本高昂等核心痛点,导致模型评估往往停留在仿真环境或有限场景,其“现实世界智能”成色几何,始终难以量化评判。

RoboChallenge正是为破解这一行业共性难题而生。作为由原力灵机与 Hugging Face 联合发起的全球首个大规模的真机评测平台,RoboChallenge致力于构建一个开放、公正、可大规模复现的“真实考场”。自 2025 年 10 月 15 日正式上线以来,平台已成功部署了包含 UR5、Franka Panda、ARX5、ALOHA 等四大主流机型在内的 20 台真机集群,构筑起一个稳定、多元的远程物理测试网络。

凝聚行业共识,共建评测标准

为推动真机评测走向规范化、标准化,2025 年 11 月 20 日,原力灵机与 Hugging Face 深度集结智源研究院、智元机器人、Qwen、星海图、自变量、清华大学、西安交通大学及 GOSIM,共同成立了 RoboChallenge 组委会。

RoboChallenge 组委会成员

这标志着真机测评迈入“开放共同体”协作的标准化新阶段,将以行业共创模式为技术迭代注入强劲动能。组委会致力于将 RoboChallenge 升维为行业级公共基础设施,依托常态化运营机制,推动评测从“分散实验”走向“共识共建”。未来,组委会将持续联动产学研各界,构建透明、高效、可信的评测生态,加速具身智能行业标准的沉淀与普及。

与此同时,平台开源了覆盖 9 大类、共计 30 个标准化桌面任务的 Table30 数据集,为全球研究者提供了公开、透明、高价值的训练与评测基准。这一举措迅速获得全球具身智能社区的积极响应。

真机实测成风潮,开源模型竞相上榜

报告指出,RoboChallenge 平台用户注册数与评测提交量在过去三个月呈指数级增长,标志着“拥抱真机实测”已成为全球具身智能领域的核心共识。平台已吸引了从顶尖研究院所、科技巨头到活跃开源社区的广泛参与。

目前,由社区及个人开发者提测的多款开源模型,如 Pi0 与 Pi0.5、RDT-1B、CogACT 及 OpenVLA-OFT 等已成功完成测试并上榜。千寻智能与自变量团队更已完成了完整的 Table30 任务集评测。此外,极佳视界、智源研究院、中移杭研、星海图、地平线等多家机构的模型也正在平台进行紧锣密鼓的真机实测。这种跨越国界与机构壁垒的广泛参与,彰显了行业对于标准化、可比较真机验证平台的迫切需求。

报告核心发现:机遇与挑战并存

基于对海量真机测试数据的深度分析,RoboChallenge 年度报告揭示了以下核心发现与亮点观察:

1. 评测热度飙升,真机验证已成刚需:平台活跃度指数级增长,证实 RoboChallenge 已成为检验 VLA 模型物理世界能力的权威试金石。

活跃用户地域分布显示出 RoboChallenge 正在形成国际化生态

2. 基础任务趋近成熟,“Hello World”雏形初现:“叠碗”和“物体移入盒子”两项任务因其相对较高的成功率,成为多数模型首选的验证性任务,类似具身智能的入门“考题”。

3. 复杂任务依然“屹立不倒”:涉及多步骤序列决策、长期规划及精细灵巧操作的任务,如“整理纸杯”、“制作三明治”等,对当前所有参测模型而言仍极具挑战,成功率长期处于低位,部分甚至接近零。这清晰划定了当前技术的能力前沿。

4. 榜首模型成功率约 50%,前路仍长:当前在 Table30 评测集上表现最佳的模型,其整体成功率也仅在 50% 左右。这既体现了现有模型的进步,也充分说明了 Table30 任务集设计的挑战性与现实价值,表明具身智能在通用能力上仍有巨大提升空间。

RoboChallenge官网首页总榜(仅显示 Top 8) 截图日期:2025.1.23

5. VLA模型仍在攻克人类的本能级操作。实测数据显示,参测模型虽具备较强的指令语义理解能力(呈现移动趋势),但在精细操作任务中成功率不足 15%。这种现象在 RoboChallenge 平台上沉淀了大量真机失败数据,这份公开的“错题集”可作为模型迭代优化的关键参考。

6. 社区志愿者与具身智能企业通过实战评测,不仅探明了多维任务下的模型边界,更沉淀了关键的技术洞察与工程经验。这些实战的洞察和发现为 RoboChallenge 的迭代提供了重要参考,正凝聚行业合力,共同加速具身智能“GPT-3.5时刻”的到来。

展望未来:拓展场景,深化协作,共创价值

RoboChallenge年度报告的发布,标志着具身智能真机评测进入了以数据驱动、标准共建的新阶段。但这仅仅是序章。展望未来,RoboChallenge 将持续迭代,引入更多机器人本体类型,拓展至更多元化、更贴近真实工业与家庭需求的场景评测集,并设计更具挑战性的任务。平台还将探索分布式真机评测机制,进一步扩大测试规模与效率。

“我们的愿景是与全球社区并肩前行,”RoboChallenge组委会表示,“通过构建和维护这个最真实、最开放的具身智能‘考场’,我们期望不断降低真机验证的门槛,让每一次失败都转化为进步的阶梯,共同推动具身智能技术突破‘最后一厘米’的障碍,最终在真实的物理世界中创造切实、普惠的价值。”

查阅RoboChallenge年度报告请点击“阅读原文”

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/9 6:57:59

难绷!和阿里 P11/P12 约会相亲?女网友竟称“也没那么难钓嘛”

今日份趣图,属于小某书上推某软件的软文帖子了。28 岁的 P11,29 岁的 P12……忒离谱了!大模型出幻觉后都不如她。不懂大厂职级体系,你随便抓个大模型问就知道的嘛我抓了一个问了,知名的 P11 和 P12 年龄大概如下&#…

作者头像 李华
网站建设 2026/2/7 19:32:34

Waymo融资160亿美元:估值1260亿美元 红杉与DST领投

雷递网 乐天 2月3日自动驾驶出租车先驱Waymo宣布筹集160亿美元,投后估值达到1260亿美元。当前,Waymo正在打造覆盖全球的自动驾驶车队,而其他财力雄厚的竞争对手,例如特斯拉和亚马逊,则正努力追赶。除Alphabet作为主要投…

作者头像 李华
网站建设 2026/2/11 10:11:39

LeakCanary 使用经验分享

文章目录 1. 集成配置 基本依赖配置 自定义配置 2. 使用经验总结 2.1 检测时机 2.2 常见泄漏场景识别 3. 实际项目经验 3.1 误报处理 3.2 自定义排除规则 4. 最佳实践 4.1 版本管理 4.2 性能考虑 4.3 团队协作 5. 高级配置技巧 5.1 自定义 Heap Dumper 5.2 监听检测结果 6. 常见…

作者头像 李华
网站建设 2026/2/5 5:31:52

【软考每日一练030】软件维护:逆向工程与再工程的区别与联系

【软考每日一练030】软件维护:逆向工程与再工程的区别与联系 一、 题目回顾 6. ( ) 是在逆向工程所获取信息的基础上修改或重构已有的系统,产生系统的一个新版本。 A. 逆向分析 (Reverse Analysis) B. 重组 (Restructuring) C. 设计恢复 (Design Reco…

作者头像 李华
网站建设 2026/2/7 5:03:08

解读大数据领域HDFS的元数据管理

深入解读大数据领域HDFS的元数据管理 摘要/引言 问题陈述 在大数据存储与处理的场景中,Hadoop分布式文件系统(HDFS)作为重要的数据存储基石,面临着如何高效管理海量元数据的挑战。元数据记录着文件系统的关键信息,如文…

作者头像 李华
网站建设 2026/2/11 3:53:38

Spark代码规范指南:写出高性能Spark应用的最佳实践

Spark代码规范指南:写出高性能Spark应用的最佳实践 一、引言:为什么你的Spark应用跑得慢? 你是否遇到过这样的场景? 写了一个Spark应用,本地测试没问题,上线后却跑了几个小时还没结束;明明给…

作者头像 李华