news 2026/5/9 13:22:24

【VLA】InternVLA-A1: Robotic Manipulation统一VLA框架

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【VLA】InternVLA-A1: Robotic Manipulation统一VLA框架

note

文章目录

  • note
  • 一、InternVLA-A1: Robotic Manipulation

一、InternVLA-A1: Robotic Manipulation

【具身智能大模型进展】讲的故事是模型通过统一框架整合三大“专家模块”,形成“理解→生成→动作”闭环。InternVLA-A1: Unifying Understanding,Generation and Action for Robotic Manipulation, https://arxiv.org/pdf/2601.02456,主页: https://internrobotics.github.io/internvla-a1.github.io/,代码:https://github.com/InternRobotics/InternVLA-A1,DATA:https://huggingface.co/datasets/InternRobotics/InternData-A1,模型权重:https://huggingface.co/InternRobotics/InternVLA-A1-3B,

1)理解专家:基于InternVL3或Qwen3-VL多模态模型,将多视图观测(图像)编码为视觉token、语言指令编码为文本token,融合生成环境语义上下文(前缀token h_und);
2)生成专家:采用Cosmos CI8×8连续VAE token化器处理图像,先将256×256图像编码为32×32潜特征,再通过卷积层压缩至4×4(仅16个token)以提升效率;基于理解专家的语义上下文,预测未来15帧(约1秒)的场景潜特征,经解码重建为预测图像;
3)动作专家:结合语言目标、当前观测(h_und)、生成专家的未来预测结果,通过流匹配目标生成机器人控制指令(动作块aˆ_𝑡:𝑡+𝑘)。

另外,数据集方面,融合InternData-A1(27万+合成轨迹)与Agibot-World(100万+真实轨迹),覆盖家居、工业等5大场景、3000余种物品、超5.33亿帧数据,涵盖动态/静态、单机器人/多机器人协作等多类场景。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 18:01:16

秒懂GLM-4.6V-Flash-WEB部署流程,新手也能一次成功

秒懂GLM-4.6V-Flash-WEB部署流程,新手也能一次成功 你是不是也遇到过这样的情况:看到一个超酷的视觉大模型,兴冲冲点开文档,结果被“安装依赖”“编译CUDA扩展”“配置环境变量”“解决版本冲突”一连串术语劝退?更别…

作者头像 李华
网站建设 2026/5/3 7:28:13

RexUniNLU Docker镜像升级指南:从v1.2.1平滑迁移至RexUniNLU-v2新架构

RexUniNLU Docker镜像升级指南:从v1.2.1平滑迁移至RexUniNLU-v2新架构 1. 为什么这次升级值得你花30分钟认真读完 你可能已经用过RexUniNLU v1.2.1——那个开箱即用、支持7大NLP任务的中文信息抽取利器。它跑得稳、效果好、部署简单,很多团队拿它直接上…

作者头像 李华
网站建设 2026/5/8 8:11:41

开源CLAP模型部署案例:HTSAT-Fused音频分类Web服务实操

开源CLAP模型部署案例:HTSAT-Fused音频分类Web服务实操 1. 这不是“听个响”,而是真正理解声音语义的AI 你有没有试过把一段环境录音丢给AI,让它告诉你:“这是雷声还是空调外机故障?” 或者上传一段宠物视频里的音频…

作者头像 李华
网站建设 2026/5/8 8:11:46

HY-Motion 1.0详细步骤:自定义骨骼模板适配不同3D角色绑定规范

HY-Motion 1.0详细步骤:自定义骨骼模板适配不同3D角色绑定规范 1. 为什么需要自定义骨骼模板?——从“能动”到“真像”的关键一跃 你有没有遇到过这样的情况:用HY-Motion 1.0生成了一段行云流水的武术动作,可导入Blender后&…

作者头像 李华
网站建设 2026/5/8 8:11:56

从零到一:Jetson Nano与YOLOv8的嵌入式AI开发实战

从零到一:Jetson Nano与YOLOv8的嵌入式AI开发实战 1. 硬件准备与系统配置 Jetson Nano作为一款面向边缘计算的AI开发板,其硬件配置虽然小巧但功能强大。我们先来看看如何为YOLOv8部署做好基础准备。 硬件清单检查: Jetson Nano开发板&…

作者头像 李华