LET：面向真实场景与长时序任务的人形机器人数据集-开发者社区

在机器人领域，数据的重要性不亚于燃油之于发动机。没有好数据，再牛的算法也只是纸上谈兵。今天要给大家介绍一个让研发者和学术界都兴奋的数据神器 ——LET 全尺寸人形机器人真机数据集！

随着机器人能力从单一动作执行，向多步骤、长时序、真实环境下的完整任务执行演进，行业关注重点正在发生变化。模型结构已不再是唯一限制因素，能够真实反映多场景、多目标执行过程的数据，正在成为决定具身智能能力上限的关键。覆盖真实任务流程的真机数据，正逐步成为具身智能持续发展的核心基础。

在这一背景下，OpenLoong 开源社区迎来了LET 数据集（LET-touch-dataset）的加入。该数据集是一个面向真机执行的全尺寸人形机器人操作学习数据集，由乐聚智能与合作团队联合构建，旨在为具身智能模型提供更贴近真实应用场景的高质量数据基础。LET 数据集目前已正式捐赠并上线OpenLoong 开源社区。

👉 数据集地址：https://ai.gitcode.com/lejurobot/let_dataset

在具身智能领域，模型需要学习的不只是感知或理解，而是在真实世界中完成感知、决策与执行的闭环，包括跨阶段策略推理、复杂动作执行，以及从自然语言指令到连续动作序列的稳定实现。实现这些能力的关键，在于高质量的真实操作数据。相比仿真数据，真实机器人在真实物理环境中的任务执行更能反映环境约束与策略选择的复杂性，因此对数据的真实性、规模和规范性提出了更高要求。

LET 数据集正是在这一背景下诞生，为具身智能模型训练提供了重要的真实数据基础。

01｜真实长时序任务覆盖

LET 数据集真正的核心价值之一，就是它在长时序任务覆盖上的深度与广度。我们知道很多机器人数据集仅仅是一堆“单步动作片段”—比如抓取这个物体、移动到某点、放下这个物体等，一段一段割裂开来。

但是 LET 数据集完全不同：它是基于乐聚夸父系列全尺寸人形机器人真实采集的整套作业流程数据，真实记录了机器人从任务起点到任务结束的完整连续执行过程，而不是简单的短镜头组合。

在 LET 里，每一条数据轨迹不是孤立的“动作片段”，而是一个连贯的执行链路。例如机器人在工厂里完成一个装配任务，它不是先完成一个动作停止再重新启动，而是从识别物体、抓取、移动、避障到最终完成整个任务，全流程连续记录。

这样的连续性数据非常稀缺，因为：

它捕获了时间维度上的策略演进— 机器人在执行过程中对感知信息的持续反馈与动作调整；
反映了真实的动态扰动与环境交互— 在真实场景中，机器人会遇到各种延迟、抖动、碰撞、小误差，这些都成为模型训练非常宝贵的真实样本；
使得长时序行为模式可学习— 传统单步数据只能教会机器人“一步怎么做”，而 LET 的长时序数据能教机器人“整个任务怎么规划、怎么调整、怎么连续执行”。如同人类从看懂一帧图片进阶到理解一整部电影的剧情一样，这种长时序连贯数据大幅提升学习质量。

数据量到底多大？

LET 数据集采集规模超过60,000 分钟真实任务执行数据，这在国内乃至国际的人形机器人真机数据集里都属于领先级别。这样的规模确保了长时序数据既有足够密度，又有足够多样性，支撑从感知、策略到执行一整套学习与评估流程。

为什么这对模型训练这么重要？

长时序数据为学习智能策略、规划决策和连续控制提供了必要的真实样本。在强化学习、模仿学习、策略优化这些前沿研究方向里：

模型能从真实任务链路中学习策略变化；
能捕获任务间上下文和阶段性特征；
更接近真实部署场景，实现从“动作预测”到“行为理解与决策”的跃迁。

02｜多场景、多任务结构化采集

LET 数据集的一个显著特点在于其丰富的场景覆盖能力与高度结构化的任务设计。该数据集并非简单的数据堆积，而是在真实作业环境中，围绕明确的任务目标与执行流程进行系统化设计与采集，形成可直接用于模型训练与评估的结构化数据资产。

数据采集从宏观上覆盖了三个核心应用领域：

工业制造—— 汽车工厂、3C 电子生产线

传送带分拣 gif 图

商业零售与服务—— 快消品场景、酒店服务、日化产品分拣

日化产品分拣图

日常生活与物流—— 生活服务、仓储与物流执行

日常桌面整理 gif 图

这些场景并非随意选取，而是聚焦当前人形机器人最具实际应用价值和落地潜力的真实环境。多样且具有代表性的场景组合，为模型在不同任务与应用领域中的迁移与泛化能力提供了更扎实的训练基础。

场景分布图

在这些场景之上，LET 数据集构建了31 项核心任务。每项任务都在真实业务链路中设计，目标清晰、步骤明确、执行流程有约束，不是简单的“机器人站着拍几段动作”。

任务分布图

这意味着模型训练时能够基于明确定义的任务目标，去学习：

任务规划策略
步骤之间的逻辑关系
多步骤执行中的连续动作模式

从“识别物体 + 执行动作”跃迁到“根据任务目标做连续决策”，这是机器人从“做动作”迈向“理解任务”的关键一步。

03｜多模态标注与结构化信息支持

为了支持具身智能模型对复杂任务的全面学习，LET 数据集在采集阶段即引入了多模态感知与动作信息的协同记录机制，将机器人在真实执行过程中的多源观测数据统一纳入同一数据体系中。

在数据内容上，LET 数据集不仅包含高频采集的视觉流信息（多视角 RGB / 深度图像），还同步记录机器人本体状态，包括关节角度、关节速度、力矩反馈、末端执行器位姿与接触状态等关键运动与控制信号。这种“感知—状态—动作”并行采集的方式，使得数据能够真实反映机器人在复杂环境中执行任务时的完整决策闭环。

在此基础上，LET 数据集构建了结构化语义标注体系。每条数据不仅配备明确的任务描述，还进一步细分为任务阶段标签、子目标定义与关键动作节点，使原本连续的执行过程具备清晰的语义层级。这种标注方式避免了仅依赖结果标签的粗粒度监督，使模型能够学习到任务分解、阶段切换与动作选择之间的内在关联。

通过多模态观测数据与结构化语义信息的深度结合，LET 数据集为模型同时学习感知理解、动作规划与执行控制提供了坚实的数据基础，为复杂任务建模和长期任务学习奠定了可扩展的数据表达形式。

04｜面向训练与工程应用的设计

在设计之初，LET 数据集并未将目标局限于实验室研究场景，而是明确面向模型训练与工程落地的双重需求进行构建。在数据规范性、工程化适配和长期可维护性方面，LET 数据集进行了系统化设计。

首先，在数据结构与格式层面，LET 数据集遵循统一的数据规范，对多模态数据的存储方式、时间戳对齐、字段命名和元信息描述进行了严格约束，确保不同场景、不同批次采集的数据在逻辑与结构上保持高度一致。这种统一性显著降低了后续模型训练过程中对数据清洗与格式适配的成本。

其次，LET 数据集引入了完整的数据生命周期管理机制，覆盖数据采集、预处理、质量审核、版本迭代与发布等关键环节。通过明确的数据版本控制与质量标识，开发者能够清晰追溯数据来源与变更历史，为模型对比实验、性能回溯与工程复现提供可靠保障。

更重要的是，这种工程化设计使 LET 数据集具备“即用型”特征。科研团队和企业开发者无需投入大量精力进行二次整理，即可直接将数据接入训练流水线，用于模型预训练、微调以及跨任务验证，加速具身智能模型从研究验证到工程部署的转化过程。

05｜推动开源生态与行业协同

LET 数据集的开源与捐赠，不仅是一次数据资源的释放，更是对统一数据规范与协同治理模式的积极探索。作为 OpenLoong 数据生态的重要补充，LET 数据集在内容规模、任务复杂度与工程标准方面，为开源社区提供了具有参考价值的数据范式。

在国家地方共建人形机器人创新中心的支持下，LET 数据集以开放形式加入 OpenLoong 平台，为研究机构、高校团队与产业开发者提供了可靠的数据支撑。这种开放机制有助于推动行业在任务建模方式、技能表示形式与评测标准上的共识形成，减少重复建设带来的资源浪费。

通过引入真实场景下的大规模任务数据，LET 数据集为具身智能领域在技能学习、策略验证与系统评估等方向提供了可复用的实验基础。开发者不仅可以基于数据进行算法对比与能力验证，还能够在统一数据条件下开展跨模型、跨方法的系统性研究。

LET 数据集 · 性能与优势展示

大规模真实长期任务执行数据

LET数据集聚焦真实环境中的长期任务执行过程，覆盖多场景下完整任务链路与连续动作决策。数据以真实机器人执行为核心，显著区别于短轨迹、单动作的数据形态，为长期规划与持续执行模型提供高价值训练样本。

面向长期任务的任务链与阶段建模能力

LET 明确刻画任务的阶段结构与执行流程，覆盖31 项完整任务，并拆解出117 种原子技能，支持模型学习从任务理解、阶段切换到动作执行的完整决策闭环，显著提升对Long-horizon Planning与多阶段任务的建模能力。

多场景真实采集，贴近实际部署环境

数据采集覆盖工业制造、商业零售与日常生活三大领域，包含汽车工厂、3C 工厂、酒店服务、快消零售、生活服务与物流等多类真实应用场景，有效增强模型在复杂、动态环境中的泛化能力与鲁棒性。

统一规范的多模态与结构化标注体系

LET 提供统一的数据组织与标注标准，融合视觉观测数据、机器人关节与末端执行器状态、任务描述、阶段标签与语义结构信息，支持模型联合学习感知、规划与执行之间的内在关联，降低训练与工程落地成本。

原子技能级数据设计，支持模块化训练与评估

通过对任务流程进行原子技能级拆解，LET 支持技能级训练、任务级组合与精细化性能评估，为策略泛化、技能复用与消融分析提供良好的数据基础，适用于构建可解释、可扩展的具身智能系统。

面向研究与工程的双重可用性

LET 不仅适用于学术研究中的长期任务建模与算法验证，也可作为工程侧的训练与测试数据集，支持具身大模型训练、长期任务 benchmark 构建以及真实场景策略验证，具备持续扩展与演进能力。

👉 数据集地址：https://ai.gitcode.com/lejurobot/let_dataset

LET：面向真实场景与长时序任务的人形机器人数据集

01｜真实长时序任务覆盖

02｜多场景、多任务结构化采集

03｜多模态标注与结构化信息支持

04｜面向训练与工程应用的设计

05｜推动开源生态与行业协同

LET 数据集 · 性能与优势展示

爆肝整理！RAG技术全方位解析，让大模型不再“胡说八道“，小白也能秒变大神

django-flask基于python的电竞赛事报名裁判管理系统

大模型备案：常见驳回原因与优化经验分享

毕设实战：基于多尺度空洞注意力（MSDA）的YOLOv8改进与视觉识别优化

【扣子编程】| 告别付费插件，把工作流当插件用

django-flask基于python的公司销售订单管理系统的设计与实现