news 2026/6/11 10:31:14

阿里达摩院发布具身智能大脑基础模型 RynnBrain:首次赋予机器人时空记忆与物理推理能力

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
阿里达摩院发布具身智能大脑基础模型 RynnBrain:首次赋予机器人时空记忆与物理推理能力

2026年2月10日,阿里巴巴达摩院正式发布其自主研发的具身智能基础模型RynnBrain,并同步开源包含30B MoE 架构模型在内的7个全系列模型,以及全新评测基准RynnBrain-Bench。这一发布标志着具身智能从“动作执行”迈向“认知理解”的关键一步。

两大核心能力:时空记忆 + 物理空间推理

传统具身模型常因缺乏长期记忆而“健忘”,或因脱离物理上下文而产生“幻觉”。RynnBrain 针对性地引入两项基础能力:

  • 时空记忆能力:使机器人能在完整历史轨迹中回溯物体位置、目标区域乃至运动路径,实现全局状态感知。例如,当执行任务A时被临时打断去处理任务B,RynnBrain 能准确记住任务A中断时的空间坐标与时间上下文,并在完成后无缝恢复。

  • 物理空间推理机制:摒弃纯文本推理范式,采用文本描述与空间定位交错进行的策略,确保每一步推理都锚定于真实环境,显著降低幻觉风险 。

技术底座:基于 Qwen3-VL,训练效率翻倍

RynnBrain 在Qwen3-VL 视觉语言模型基础上构建,采用达摩院自研的RynnScale 训练架构,在同等算力资源下训练速度提升2倍。模型训练使用超过2000万对高质量具身交互数据,其中包括专门生成的100万对“第一人称视角”OCR问答数据,用于提升对药瓶标签、门牌号等细粒度物理信息的理解能力 。

性能全面领先:16项SOTA,超越谷歌与英伟达

在权威评测中,RynnBrain 在16项具身开源榜单上刷新纪录(SOTA),涵盖:

  • 环境感知与对象推理
  • 第一人称视觉问答(FPVQA)
  • 三维空间推理
  • 运动轨迹预测

其综合性能已超越谷歌 Gemini Robotics ER 1.5英伟达 Cosmos Reason 2等国际顶尖模型 。

极致高效:30B MoE 模型仅激活 3B 参数

此次开源的RynnBrain-30B-MoE是业界首个采用混合专家(MoE)架构的具身大模型。尽管总参数达30B,但推理时仅激活约3B参数,即可超越72B稠密模型(如Pelican-VL)的效果,大幅降低硬件成本,同时提升机器人动作响应速度与流畅度 。

强可扩展性:数百条数据即可微调出SOTA专用模型

RynnBrain 具备优异的迁移能力。以具身规划任务为例,仅需几百条后训练样本微调,即可获得超越Gemini 3 Pro的性能,轻松达到SOTA水平。这使其有望成为导航、操作、任务规划等下游应用的统一基础模型 。

开源生态:模型 + 基准 + 代码全开放

达摩院此次不仅开源全部7个模型(含基础版与专用版),还发布了RynnBrain-Bench评测基准,首次系统支持时空细粒度具身任务评估,填补行业空白 。

达摩院具身智能实验室负责人赵德丽表示:“RynnBrain 首次实现了大脑对物理世界的深度理解与可靠规划,为‘大小脑分层架构’下的通用具身智能迈出关键一步。”

随着 RynnBrain 的全面开源,具身智能正加速从实验室走向工厂、厨房、物流等真实场景,推动 AI 真正“走进物理世界”。

大模型相关课程:

11.大模型的发展与局限性
21.1 ollama本地快速部署deepseek
31.2 linux本地部署deepseek千问蒸馏版+web对话聊天
41.3 linux本地部署通义万相2.1+deepseek视频生成
51.4 Qwen2.5-Omni全模态大模型部署
61.5 Stable Diffusion中文文生图模型部署
71.6 DeepSeek-OCR部署尝鲜
82.1 从零训练自己的大模型概述
92.2 分词器
102.3 预训练自己的模型
112.4 微调自己的模型
122.5 人类对齐训练自己的模型
133.1 微调训练详解
143.2 Llama-Factory微调训练deepseek-r1实践
153.3 transform+LoRA代码微调deepseek实践
164.1 文生图(Text-to-Image)模型发展史
174.2 文生图GUI训练实践-真人写实生成
184.3 文生图代码训练实践-真人写实生成
195.1 文生视频(Text-to-Video)模型发展史
205.2 文生视频(Text-to-Video)模型训练实践
216.1 目标检测模型的发展史
226.2 YOLO模型训练实践及目标跟踪
231.1 Dify介绍
241.2 Dify安装
251.3 Dify文本生成快速搭建旅游助手
261.4 Dify聊天助手快速搭建智能淘宝店小二
271.5 Dify agent快速搭建爬虫助手
281.6 Dify工作流快速搭建数据可视化助手
291.7 Dify chatflow快速搭建数据查询智能助手
302.1 RAG介绍
312.2 Spring AI-手动实现RAG
322.3 Spring AI-开箱即用完整实践RAG
332.4 LlamaIndex实现RAG
342.5 LlamaIndex构建RAG优化与实践
352.6 LangChain实现RAG企业知识问答助手
362.7 LangChain构建RAG企业知识问答助手实践
373.1 agent核心功能与概念
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/8 16:08:41

5分钟部署Whisper语音识别:零基础搭建多语言转录服务

5分钟部署Whisper语音识别:零基础搭建多语言转录服务 引言:语音识别原来这么简单 你有没有遇到过这样的场景?会议录音需要整理成文字,外语视频需要翻译字幕,或者想给音频内容添加文字说明。传统方法要么手动打字费时…

作者头像 李华
网站建设 2026/6/6 18:44:35

VMD-SE-BiLSTM+Transformer多变量时序预测,MATLAB代码

一、研究背景 该模型针对复杂非线性时间序列预测问题,特别是具有多尺度、非平稳特性的时序数据。传统单一模型难以同时捕捉时序数据中的低频趋势和高频波动特征,因此采用分解-重构-混合建模 的策略,结合信号处理与深度学习技术提升预测精度。…

作者头像 李华
网站建设 2026/6/5 5:18:28

局域网中两台win电脑传输文件

文章目录1.方案一:Python 一行命令 HTTP 服务 (最接近 Linux 体验)1. 在发送方电脑 A 上操作2. 在接收方电脑 B 上操作2.方案二:Windows 共享文件夹 (适合频繁传输)3. Linux电脑向Win电脑传输文件总结✨✨✨学习的道路很枯燥,希望我们能并肩走…

作者头像 李华
网站建设 2026/6/10 23:51:54

Flink运行架构深度解析:从核心组件到实战提交

一、Flink运行架构概述Flink作为一个分布式流式计算引擎,其运行架构主要围绕 JobManager 和 TaskManager 两大核心组件展开。1. JobManager(Master)负责协调分布式任务的执行,包括任务调度、资源申请、检查点协调和故障恢复等。一…

作者头像 李华
网站建设 2026/6/6 10:50:28

如何选择高安全性CDN服务?2026年五大厂商深度横评指南

在数字化时代,CDN 作为业务内容分发的核心基础设施,其安全性直接决定了企业数据传输与业务运营的稳定性,选择一家高安全性的 CDN 服务公司成为企业数字化布局的关键。本文从合规资质、传输加密、访问控制、运维与服务四大核心维度&#xff0c…

作者头像 李华
网站建设 2026/5/28 14:56:28

数位差与数值和的构造

求解代码public static void main(String[] args) throws IOException {BufferedReader br new BufferedReader(new InputStreamReader(System.in));StringTokenizer in new StringTokenizer(br.readLine());PrintWriter out new PrintWriter(new OutputStreamWriter(System…

作者头像 李华