基于数万次真机评测，RoboChallenge 首份年度报告发布-开发者社区

Datawhale分享

年度报告：RoboChallenge

当大语言模型在数字世界不断刷新人类认知边界，一场关于 AI 如何“扎根”现实物理世界的革命正悄然进行。今日，全球首个具身智能大规模真机评测平台—— RoboChallenge 正式发布首份年度报告。报告基于过去数月内（2025 Q4～2026 Q1）平台完成的数万次严苛远程真机测试，以大规模、标准化、可复现的数据，客观揭示了当前视觉-语言-动作模型在真实物理环境中的能力边界与共性挑战，为具身智能（Embodied AI）从实验室迈向通用化，提供了不可或缺的“公正标尺”与行动指南。

从数字智能到物理智能：行业呼唤“真实考场”

近年来，大语言模型与视觉语言模型取得了爆发式突破，人工智能在感知、认知与推理层面展现出惊人潜力。然而，将这种能力可靠地赋予机器人，使其在复杂多变的物理世界中理解、决策并执行任务，仍是横亘在研究者面前的巨大挑战。真机测试长期面临难以复现、缺乏统一标准、成本高昂等核心痛点，导致模型评估往往停留在仿真环境或有限场景，其“现实世界智能”成色几何，始终难以量化评判。

RoboChallenge正是为破解这一行业共性难题而生。作为由原力灵机与 Hugging Face 联合发起的全球首个大规模的真机评测平台，RoboChallenge致力于构建一个开放、公正、可大规模复现的“真实考场”。自 2025 年 10 月 15 日正式上线以来，平台已成功部署了包含 UR5、Franka Panda、ARX5、ALOHA 等四大主流机型在内的 20 台真机集群，构筑起一个稳定、多元的远程物理测试网络。

凝聚行业共识，共建评测标准

为推动真机评测走向规范化、标准化，2025 年 11 月 20 日，原力灵机与 Hugging Face 深度集结智源研究院、智元机器人、Qwen、星海图、自变量、清华大学、西安交通大学及 GOSIM，共同成立了 RoboChallenge 组委会。

RoboChallenge 组委会成员

这标志着真机测评迈入“开放共同体”协作的标准化新阶段，将以行业共创模式为技术迭代注入强劲动能。组委会致力于将 RoboChallenge 升维为行业级公共基础设施，依托常态化运营机制，推动评测从“分散实验”走向“共识共建”。未来，组委会将持续联动产学研各界，构建透明、高效、可信的评测生态，加速具身智能行业标准的沉淀与普及。

与此同时，平台开源了覆盖 9 大类、共计 30 个标准化桌面任务的 Table30 数据集，为全球研究者提供了公开、透明、高价值的训练与评测基准。这一举措迅速获得全球具身智能社区的积极响应。

真机实测成风潮，开源模型竞相上榜

报告指出，RoboChallenge 平台用户注册数与评测提交量在过去三个月呈指数级增长，标志着“拥抱真机实测”已成为全球具身智能领域的核心共识。平台已吸引了从顶尖研究院所、科技巨头到活跃开源社区的广泛参与。

目前，由社区及个人开发者提测的多款开源模型，如 Pi0 与 Pi0.5、RDT-1B、CogACT 及 OpenVLA-OFT 等已成功完成测试并上榜。千寻智能与自变量团队更已完成了完整的 Table30 任务集评测。此外，极佳视界、智源研究院、中移杭研、星海图、地平线等多家机构的模型也正在平台进行紧锣密鼓的真机实测。这种跨越国界与机构壁垒的广泛参与，彰显了行业对于标准化、可比较真机验证平台的迫切需求。

报告核心发现：机遇与挑战并存

基于对海量真机测试数据的深度分析，RoboChallenge 年度报告揭示了以下核心发现与亮点观察：

1. 评测热度飙升，真机验证已成刚需：平台活跃度指数级增长，证实 RoboChallenge 已成为检验 VLA 模型物理世界能力的权威试金石。

活跃用户地域分布显示出 RoboChallenge 正在形成国际化生态

2. 基础任务趋近成熟，“Hello World”雏形初现：“叠碗”和“物体移入盒子”两项任务因其相对较高的成功率，成为多数模型首选的验证性任务，类似具身智能的入门“考题”。

3. 复杂任务依然“屹立不倒”：涉及多步骤序列决策、长期规划及精细灵巧操作的任务，如“整理纸杯”、“制作三明治”等，对当前所有参测模型而言仍极具挑战，成功率长期处于低位，部分甚至接近零。这清晰划定了当前技术的能力前沿。

4. 榜首模型成功率约 50%，前路仍长：当前在 Table30 评测集上表现最佳的模型，其整体成功率也仅在 50% 左右。这既体现了现有模型的进步，也充分说明了 Table30 任务集设计的挑战性与现实价值，表明具身智能在通用能力上仍有巨大提升空间。

RoboChallenge官网首页总榜（仅显示 Top 8）截图日期：2025.1.23

5. VLA模型仍在攻克人类的本能级操作。实测数据显示，参测模型虽具备较强的指令语义理解能力（呈现移动趋势），但在精细操作任务中成功率不足 15%。这种现象在 RoboChallenge 平台上沉淀了大量真机失败数据，这份公开的“错题集”可作为模型迭代优化的关键参考。

6. 社区志愿者与具身智能企业通过实战评测，不仅探明了多维任务下的模型边界，更沉淀了关键的技术洞察与工程经验。这些实战的洞察和发现为 RoboChallenge 的迭代提供了重要参考，正凝聚行业合力，共同加速具身智能“GPT-3.5时刻”的到来。

展望未来：拓展场景，深化协作，共创价值

RoboChallenge年度报告的发布，标志着具身智能真机评测进入了以数据驱动、标准共建的新阶段。但这仅仅是序章。展望未来，RoboChallenge 将持续迭代，引入更多机器人本体类型，拓展至更多元化、更贴近真实工业与家庭需求的场景评测集，并设计更具挑战性的任务。平台还将探索分布式真机评测机制，进一步扩大测试规模与效率。

“我们的愿景是与全球社区并肩前行，”RoboChallenge组委会表示，“通过构建和维护这个最真实、最开放的具身智能‘考场’，我们期望不断降低真机验证的门槛，让每一次失败都转化为进步的阶梯，共同推动具身智能技术突破‘最后一厘米’的障碍，最终在真实的物理世界中创造切实、普惠的价值。”

查阅RoboChallenge年度报告请点击“阅读原文”