Learning by Watching: Physical Imitation ofManipulation Skills from Human Videos论文学习-开发者社区

这篇论文主要的工作也是要研究如何用人类演示视频来训练机器人。先通过 MUNIT 模型（无监督图像翻译）把人类演示视频逐帧转化为机器人视角的视频 —— 翻译后的视频可能有视觉伪影，缺少结构化关键信息，无法直接用于训练；接着用 Transporter 模型从翻译后的机器人视频中提取关键点轨迹（比如机器人末端、物体中心的运动轨迹）；最后用这些轨迹作为强化学习的训练目标，让机械臂的关键点轨迹与目标轨迹尽可能一致，从而学会操作技能。

那么Transpoprter模型是怎么弄出来的呢？为什么我们可以以一个无监督的方式训练出来一个Transporter模型？具体流程是这样：

取机器人视频的相邻两帧 x1（前一帧）和 x2（当前帧），先用视觉特征提取器 Φ 提取两帧的特征图 Φ(x1)、Φ(x2)；再用关键点检测器 Ψ 生成两帧的关键点坐标，并基于坐标生成高斯热图 HΨ(x1)、HΨ(x2)—— 这两个热图用来标记两帧中 “模型认为的关键区域”（一开始 Ψ 不够精准，需要通过训练优化）。
基于热图做特征迁移：以 x1 的特征图 Φ(x1) 为基础，保留其非关键区域的特征，同时把关键区域的特征替换成 x2 的关键区域特征，得到迁移后的特征图Φ^(x1,x2)；再用重建网络 R 把这个特征图还原成图像x2^，并和真实的 x2 对比。
若 Ψ 提取的关键点是准确的，还原后的x2^会和真实 x2 高度相似，二者的差异（重建损失Ltransporter）就小；若关键点提取错误，差异会变大 —— 模型通过这个损失反向优化 Ψ，直到能精准提取机器人视频中的关键区域。

经过上述训练，我们就得到了能准确提取关键信息的 Transporter 模型，其核心组件 Ψ 就是我们用来提取关键点轨迹的工具。

学长亲荐10个AI论文工具，本科生搞定毕业论文不求人！

学长亲荐10个AI论文工具，本科生搞定毕业论文不求人！ AI 工具如何让论文写作变得轻松高效？ 在当今学术环境中，越来越多的本科生开始借助 AI 工具来辅助论文写作。这些工具不仅能显著降低 AIGC（人工智能生成内容&#xf…

李华

【课程设计/毕业设计】基于java教材征订管理系统基于微服务教材征订系统【附源码、数据库、万字文档】

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

李华

2025国内评价高的宠物项圈权威榜单重磅发布

行业痛点分析当前宠物项圈领域面临着诸多技术挑战。一方面，定位精度不足是一大难题。在复杂城市环境中，宠物活动范围广，传统项圈的定位误差较大，难以准确追踪宠物位置。测试显示，部分项圈在高楼林立区域的定位误差可达…

李华

为了过知网检测，我自费测了十大降AI平台，最好用的都在这了

家人们，现在学校查得是真严，不仅重复率，还得降ai率，学校规定必须得20%以下... 折腾了半个月，终于把市面上各类方法试了个遍，坑踩了不少，智商税也交了。今天这就把这份十大降AI工具合集掏心窝子…

李华

【在Ubuntu22.04下，微星z790主板装机后无wifi模块】

在Ubuntu22.04下，微星z790主板装机后无wifi模块因为微星最新一批的支持wifi7的主板全都是高通的wifi模块，所以装机后没有网卡驱动，不显示wifi，解决方法为找一跟数据线把手机连接到电脑主机上，开启usb网络共享&#xff…

李华

Django Cookie/Session：深入理解与实践

Django Cookie/Session：深入理解与实践引言在Web开发中，Cookie和Session是两种常见的用户数据存储方式。它们在保持用户状态、实现个性化体验等方面发挥着重要作用。本文将深入探讨Django框架中的Cookie/Session机制，包括其原理、配置、使用方法以及注意事项。 Cookie/…

李华