news 2026/2/9 22:07:57

项目分享|MimicMotion:基于置信度姿态引导的高质量人体运动视频生成

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
项目分享|MimicMotion:基于置信度姿态引导的高质量人体运动视频生成

项目简介

MimicMotion是一款专注于高质量人体运动视频生成的可控视频生成框架,由腾讯与上海交通大学的团队合作研发,相关成果已被ICML 2025收录。

该框架能够在任意运动引导下,生成高质量且长度任意的视频。从展示的示例来看,生成的视频具有丰富的细节、良好的 temporal 平滑性以及较长的视频长度。

在版本更新方面,2024年7月1日发布了项目页面、代码、技术报告及基础模型 checkpoint,7月8日发布了更优的1.1版本模型 checkpoint,将最大视频帧数从16扩展到72,显著提升了视频质量。

创新点与核心优势

MimicMotion相比以往方法,具有多项突出的创新点和优势:

其一,采用置信度感知的姿态引导,不仅实现了时间上的平滑性,还借助大规模训练数据增强了模型的鲁棒性。这使得生成的视频在运动连贯性上表现出色,减少了画面的突兀感。

其二,基于姿态置信度的区域损失放大,大幅减轻了图像的失真问题,让生成的视频画面更保真,细节更清晰。

其三,为生成 long and smooth 的视频,提出了渐进式潜在融合策略。通过这种方式,能够在可接受的资源消耗下生成任意长度的视频,突破了以往视频生成在长度上的限制。

通过大量实验和用户研究表明,MimicMotion在多个方面相比以往方法都有显著提升。

技术原理与部署指南

技术原理概述

MimicMotion的框架围绕着实现高质量人体运动视频生成展开,其核心在于通过置信度感知的姿态引导、区域损失放大以及渐进式潜在融合策略等技术,解决视频生成中可控性、视频长度、细节丰富度等问题。这些技术相互配合,共同提升了视频生成的质量和性能。

环境搭建

推荐使用Python 3+和PyTorch 2.x,已在Nvidia V100 GPU上验证。可通过以下命令安装依赖:

conda env create -f environment.yaml conda activate mimicmotion

权重下载

若连接Hugging Face存在问题,可设置环境变量export HF_ENDPOINT=https://hf-mirror.com。具体下载步骤如下:

  1. 下载DWPose预训练模型:
mkdir -p models/DWPose wget https://huggingface.co/yzd-v/DWPose/resolve/main/yolox_l.onnx?download=true -O models/DWPose/yolox_l.onnx wget https://huggingface.co/yzd-v/DWPose/resolve/main/dw-ll_ucoco_384.onnx?download=true -O models/DWPose/dw-ll_ucoco_384.onnx
  1. 从Huggingface下载MimicMotion的预训练checkpoint:
wget -P models/ https://huggingface.co/tencent/MimicMotion/resolve/main/MimicMotion_1-1.pth
  1. SVD模型stabilityai/stable-video-diffusion-img2vid-xt-1-1会自动下载。

最终权重应按如下结构组织:

models/ ├── DWPose │ ├── dw-ll_ucoco_384.onnx │ └── yolox_l.onnx └── MimicMotion_1-1.pth

模型推理

提供了test.yaml作为测试的示例配置,可根据需求修改。运行以下命令进行推理:

python inference.py --inference_config configs/test.yaml

若GPU内存有限,可尝试设置环境变量PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:256

显存需求与运行时间

35秒的演示视频,72帧模型需要16GB显存(4060ti),在4090 GPU上需20分钟完成。16帧U-Net模型最低显存需求为8GB,但VAE解码器需要16GB,也可选择在CPU上运行VAE解码器。

该项目及相关内容已在AladdinEdu课题广场同步发布,欢迎前往了解更多技术实现与资源!

项目地址:AladdinEdu课题广场

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/8 17:58:34

2025终极攻略:3步掌握Gotenberg文档转换神器

2025终极攻略:3步掌握Gotenberg文档转换神器 【免费下载链接】gotenberg A developer-friendly API for converting numerous document formats into PDF files, and more! 项目地址: https://gitcode.com/gh_mirrors/go/gotenberg 你是否曾经为文档格式转换…

作者头像 李华
网站建设 2026/2/1 1:06:18

Langchain-Chatchat文档页码定位功能实现原理

Langchain-Chatchat 文档页码定位功能实现原理 在企业知识管理日益智能化的今天,一个常见的痛点浮出水面:当AI告诉你“项目预算上限是500万元”时,你如何确认这句话真的出自《2024年度立项书》第7页,而不是模型的“幻觉”&#xf…

作者头像 李华
网站建设 2026/2/7 20:10:29

3步搞定现代化WPF导航:NavigationView控件完全指南

3步搞定现代化WPF导航:NavigationView控件完全指南 【免费下载链接】wpfui WPF UI在您熟悉和喜爱的WPF框架中提供了流畅的体验。直观的设计、主题、导航和新的沉浸式控件。所有这些都是本地化且毫不费力的。 项目地址: https://gitcode.com/GitHub_Trending/wp/wp…

作者头像 李华
网站建设 2026/2/6 22:28:47

嵌入式系统双电源管理终极指南:实现无缝切换与超长续航

嵌入式系统双电源管理终极指南:实现无缝切换与超长续航 【免费下载链接】Ghost_ESP Ghost ESP is a ESP32 Firmware that Revolutionizes the way we use ESP32 devices in a Pen Testing aspect 项目地址: https://gitcode.com/GitHub_Trending/gh/Ghost_ESP …

作者头像 李华
网站建设 2026/1/30 20:34:22

FaceFusion如何导出透明通道?PNG序列输出设置方法

FaceFusion如何导出透明通道?PNG序列输出设置方法 在影视后期、虚拟主播和广告动画的制作中,AI换脸早已不再是“换完即止”的简单操作。越来越多的专业用户希望将换脸结果作为独立图层导出,叠加到复杂背景或动态场景中——这就引出了一个关键…

作者头像 李华