news 2026/4/20 17:48:47

TTT-Video五阶段训练策略:如何从3秒扩展到63秒视频生成

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
TTT-Video五阶段训练策略:如何从3秒扩展到63秒视频生成

TTT-Video五阶段训练策略:如何从3秒扩展到63秒视频生成

【免费下载链接】ttt-video-ditOfficial PyTorch implementation of One-Minute Video Generation with Test-Time Training项目地址: https://gitcode.com/gh_mirrors/tt/ttt-video-dit

TTT-Video是GitHub加速计划中的一个创新项目,它通过Test-Time Training技术实现了从3秒到63秒的长视频生成能力。本文将详细介绍TTT-Video的五阶段训练策略,帮助你理解如何通过循序渐进的训练过程,让AI模型逐步掌握生成更长视频的能力。

五阶段训练策略概述

TTT-Video采用了基于视频长度的五阶段课程学习方法,每个阶段都建立在前一阶段的基础上,逐步提升模型生成视频的能力。这种循序渐进的训练方式,使得模型能够平稳地从生成短视频过渡到生成长达1分钟的视频。

TTT-Video的五阶段训练策略示意图,展示了从3秒到63秒视频生成的扩展过程

阶段一:3秒视频训练

第一阶段从预训练权重开始,训练模型生成3秒长度的视频。这一阶段采用全监督微调(SFT),所有参数都是可训练的。

配置文件路径:configs/train/ttt-linear/3s.tomlconfigs/train/ttt-mlp/3s.toml

阶段二:9秒视频训练

第二阶段从第一阶段的最终检查点开始,训练模型生成9秒长度的视频。从这一阶段开始,只有TTT参数和局部注意力的QVKO投影是可训练的。

配置文件路径:configs/train/ttt-linear/9s.tomlconfigs/train/ttt-mlp/9s.toml

阶段三:18秒视频训练

第三阶段从第二阶段的最终检查点开始,训练模型生成18秒长度的视频。同样,只有TTT参数和局部注意力的QVKO投影参与训练。

配置文件路径:configs/train/ttt-linear/18s.tomlconfigs/train/ttt-mlp/18s.toml

阶段四:30秒视频训练

第四阶段从第三阶段的最终检查点开始,训练模型生成30秒长度的视频。训练参数继续限制在TTT参数和局部注意力的QVKO投影。

配置文件路径:configs/train/ttt-linear/30s.tomlconfigs/train/ttt-mlp/30s.toml

阶段五:63秒视频训练

第五阶段是最后一个阶段,从第四阶段的最终检查点开始,训练模型生成63秒(1分钟)长度的视频。这一阶段完成后,模型将具备生成长达1分钟视频的能力。

配置文件路径:configs/train/ttt-linear/63s.tomlconfigs/train/ttt-mlp/63s.toml

模型加载与初始化

从CogVideoX开始

TTT-Video的微调从HuggingFace上的CogVideoX 5B预训练权重开始。项目提供了一个权重转换脚本,可以下载权重并将模型state_dict转换为正确的格式:

bash scripts/convert_weights_from_hf.sh

这个脚本只需要在3秒训练阶段运行一次。对于后续所有阶段,应该使用上一个训练阶段结束时的最终检查点。

加载模型状态

对于每个阶段,都需要指定开始训练时使用的模型权重。这通过checkpoint.init_state_dir配置选项完成。对于3秒阶段,这将是上面创建的转换后的预训练权重的路径。对于后续阶段,这应该是上一个训练阶段结束时的最终检查点。

启动训练作业

配置文件使用

所有训练阶段的配置都预定义在configs/train目录中。要在特定阶段进行训练,只需将job.config_file配置选项设置为相应的配置文件。

大多数配置都在configs/train中预设,但可以从启动脚本中覆盖。你需要更新以下内容:

  • checkpoint.init_state_dir:模型状态字典的路径
  • training.dataset_path:数据集目录的路径
  • training.jsonl_paths:数据集元数据的路径

单节点运行

项目提供了一个在单节点上运行测试的脚本:scripts/train_singlenode.sh

多节点运行

对于多节点的完整训练作业,项目提供了一个通过slurm在多个节点上运行的脚本。使用submitit在多个节点上启动训练循环:scripts/train_submitit.sh

代码实现了恢复、自动恢复、检查点和日志记录的逻辑。如果使用自动恢复,确保作业名称不变,因为脚本将查找同名实验的检查点。

长视频生成效果展示

通过五阶段训练策略,TTT-Video能够生成连贯、流畅的长视频。以下是一个63秒视频生成的示例,展示了从开始到结束的完整故事线:

TTT-Video生成的63秒视频帧序列,展示了完整的故事发展过程

总结

TTT-Video的五阶段训练策略为从3秒扩展到63秒视频生成提供了一个清晰、有效的路径。通过循序渐进地增加视频长度,模型能够逐步适应更长的时间上下文,同时保持生成质量。如果你只需要特定长度的视频,可以在相应的阶段停止训练。

无论是研究人员还是AI爱好者,都可以通过这个项目探索长视频生成的奥秘,体验Test-Time Training技术带来的创新突破。

要开始使用TTT-Video,只需克隆仓库并按照训练指南进行操作:

git clone https://gitcode.com/gh_mirrors/tt/ttt-video-dit

更多关于数据集的信息,请查看docs/dataset.md

【免费下载链接】ttt-video-ditOfficial PyTorch implementation of One-Minute Video Generation with Test-Time Training项目地址: https://gitcode.com/gh_mirrors/tt/ttt-video-dit

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/20 17:47:45

pytorch-3dunet评估指标详解:IoU、AP和Rand Error的计算与应用

pytorch-3dunet评估指标详解:IoU、AP和Rand Error的计算与应用 【免费下载链接】pytorch-3dunet 3D U-Net model for volumetric semantic segmentation written in pytorch 项目地址: https://gitcode.com/gh_mirrors/py/pytorch-3dunet pytorch-3dunet是一…

作者头像 李华
网站建设 2026/4/20 17:45:26

终极musikcube主题定制指南:打造专属你的终端音乐界面

终极musikcube主题定制指南:打造专属你的终端音乐界面 【免费下载链接】musikcube a cross-platform, terminal-based music player, audio engine, metadata indexer, and server in c 项目地址: https://gitcode.com/gh_mirrors/mu/musikcube musikcube是一…

作者头像 李华