[AI工具]Infinite Talk数字人对口型图像转视频AI工具支持无限时长视频生成-开发者社区

简介说明

Infinite Talk数字人对口型图像转视频AI工具支持无限时长视频生成
InfiniteTalk AI：音频驱动的视频生成框架
InfiniteTalk AI是由 MeiGen AI 开发的先进音频驱动视频生成框架，

专注于将静态图像或现有视频与音频结合，生成无限时长的逼真说话视频，

实现精准唇形同步和全身动作协调。
核心功能

核心优势	说明
精准唇形同步	口型与音频毫秒级匹配，自然度远超传统工具
身份保持	长时间生成中人物特征稳定不变
情感表达	能将音频情感映射到面部表情和肢体语言
高效性能	单GPU支持长时生成，多GPU可扩展

通过分析音频特征，仅需生成关键稀疏帧，再智能插值补全，既保证效率又确保自然流畅。
核心优势
优势说明
精准唇形同步口型与音频毫秒级匹配，自然度远超传统工具
身份保持长时间生成中人物特征稳定不变
情感表达能将音频情感映射到面部表情和肢体语言
高效性能单 GPU 支持长时生成，多 GPU 可扩展
典型应用场景
教育领域：虚拟讲师制作、课程多语言本地化
企业宣传：产品解说、多语种企业介绍视频快速制作
自媒体创作：博主可不出镜完成内容量产
影视制作：配音替换、角色对话重制
使用方式
通过官网 (infinitetalk.app) 上传人像素材和音频，选择生成参数，即可获得高质量的 Talking Video。
总结：InfiniteTalk AI 重新定义了音频驱动视频生成，为内容创作提供了前所未有的自由度，让 "一张照片开口说话" 成为现实，且支持无限时长、自然流畅的表达。

快速入门
1. 创建一个 conda 环境并安装 pytorch、xformers

conda create -n multitalk python=3.10 conda activate multitalk pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121 pip install -U xformers==0.0.28 --index-url https://download.pytorch.org/whl/cu121

2. Flash-attn installation:

pip install misaki[en] pip install ninja pip install psutil pip install packaging pip install wheel pip install flash_attn==2.7.4.post1

3. 其他依赖关系

pip install -r requirements.txt conda install -c conda-forge librosa

4. FFmeg安装

conda install -c conda-forge ffmpeg

或者

sudo yum install ffmpeg ffmpeg-devel

模型下载

Models	Download Link	Notes
Wan2.1-I2V-14B-480P	🤗 Huggingface	Base model
chinese-wav2vec2-base	🤗 Huggingface	Audio encoder
MeiGen-InfiniteTalk	🤗 Huggingface	Our audio condition weights

Download models using huggingface-cli:

huggingface-cli download Wan-AI/Wan2.1-I2V-14B-480P --local-dir ./weights/Wan2.1-I2V-14B-480P huggingface-cli download TencentGameMate/chinese-wav2vec2-base --local-dir ./weights/chinese-wav2vec2-base huggingface-cli download TencentGameMate/chinese-wav2vec2-base model.safetensors --revision refs/pr/1 --local-dir ./weights/chinese-wav2vec2-base huggingface-cli download MeiGen-AI/InfiniteTalk --local-dir ./weights/InfiniteTalk

🔑 快速推理
我们的型号兼容480P和720P两种分辨率。
Some tips

Lip synchronization accuracy: Audio CFG works optimally between 3–5. Increase the audio CFG value for better synchronization. FusionX： While it enables faster inference and higher quality, FusionX LoRA exacerbates color shift over 1 minute and reduces ID preservation in videos. V2V generation: Enables unlimited length generation. The model mimics the original video's camera movement, though not identically. Using SDEdit improves camera movement accuracy significantly but introduces color shift and is best suited for short clips. Improvements for long video camera control are planned. I2V generation: Generates good results from a single image for up to 1 minute. Beyond 1 minute, color shifts become more pronounced. One trick for the high-quailty generation beyond 1 min is to copy the image to a video by translating or zooming in the image. Here is a script to convert image to video. Quantization model: If your inference process is killed due to insufficient memory, we suggest using the quantization model, which can help reduce memory usage.

一些建议

唇同步精度：音频CFG的最佳表现为3–5。提高音频CFG值以实现更好的同步。 FusionX：虽然它能实现更快的推断和更高质量，但FusionX LoRA会加剧1分钟内的色移，并降低视频中的识别保护。 V2V生成：支持无限长度的生成。模型模仿了原始视频的摄像机运动，但并不完全相同。使用SDEdit显著提升了摄像机运动的准确性，但引入了色彩偏移，更适合短片段。计划改进长距离摄像机控制。 I2V生成：单张图像能产生长达1分钟的良好效果。超过1分钟后，颜色变化会更明显。对于高质量生成超过1分钟的一个技巧是通过将图像进行翻译或放大，将图像复制到视频中。这里有一个脚本，可以把图片转换成视频。 量化模型：如果您的推理过程因内存不足而终止，我们建议使用量化模型，这有助于减少内存使用。

InfiniteTalk 的使用

--mode streaming: long video generation. --mode clip: generate short video with one chunk. --use_teacache: run with TeaCache. --size infinitetalk-480: generate 480P video. --size infinitetalk-720: generate 720P video. --use_apg: run with APG. --teacache_thresh: A coefficient used for TeaCache acceleration —-sample_text_guide_scale： When not using LoRA, the optimal value is 5. After applying LoRA, the recommended value is 1. —-sample_audio_guide_scale： When not using LoRA, the optimal value is 4. After applying LoRA, the recommended value is 2. —-sample_audio_guide_scale： When not using LoRA, the optimal value is 4. After applying LoRA, the recommended value is 2. --max_frame_num: The max frame length of the generated video, the default is 40 seconds(1000 frames).

1. 推断
1）单显卡运行

python generate_infinitetalk.py \ --ckpt_dir weights/Wan2.1-I2V-14B-480P \ --wav2vec_dir 'weights/chinese-wav2vec2-base' \ --infinitetalk_dir weights/InfiniteTalk/single/infinitetalk.safetensors \ --input_json examples/single_example_image.json \ --size infinitetalk-480 \ --sample_steps 40 \ --mode streaming \ --motion_frame 9 \ --save_file infinitetalk_res

2）运行720P版本
如果你想用720P运行，可以设置：--size infinitetalk-720

python generate_infinitetalk.py \ --ckpt_dir weights/Wan2.1-I2V-14B-480P \ --wav2vec_dir 'weights/chinese-wav2vec2-base' \ --infinitetalk_dir weights/InfiniteTalk/single/infinitetalk.safetensors \ --input_json examples/single_example_image.json \ --size infinitetalk-720 \ --sample_steps 40 \ --mode streaming \ --motion_frame 9 \ --save_file infinitetalk_res_720p

3）显存非常低
如果你想用非常低的显存运行，可以设置：--num_persistent_param_in_dit 0

python generate_infinitetalk.py \ --ckpt_dir weights/Wan2.1-I2V-14B-480P \ --wav2vec_dir 'weights/chinese-wav2vec2-base' \ --infinitetalk_dir weights/InfiniteTalk/single/infinitetalk.safetensors \ --input_json examples/single_example_image.json \ --size infinitetalk-480 \ --sample_steps 40 \ --num_persistent_param_in_dit 0 \ --mode streaming \ --motion_frame 9 \ --save_file infinitetalk_res_lowvram

4）多GPU推断

GPU_NUM=8 torchrun --nproc_per_node=$GPU_NUM --standalone generate_infinitetalk.py \ --ckpt_dir weights/Wan2.1-I2V-14B-480P \ --wav2vec_dir 'weights/chinese-wav2vec2-base' \ --infinitetalk_dir weights/InfiniteTalk/single/infinitetalk.safetensors \ --dit_fsdp --t5_fsdp \ --ulysses_size=$GPU_NUM \ --input_json examples/single_example_image.json \ --size infinitetalk-480 \ --sample_steps 40 \ --mode streaming \ --motion_frame 9 \ --save_file infinitetalk_res_multigpu

5）多人动画

python generate_infinitetalk.py \ --ckpt_dir weights/Wan2.1-I2V-14B-480P \ --wav2vec_dir 'weights/chinese-wav2vec2-base' \ --infinitetalk_dir weights/InfiniteTalk/multi/infinitetalk.safetensors \ --input_json examples/multi_example_image.json \ --size infinitetalk-480 \ --sample_steps 40 \ --num_persistent_param_in_dit 0 \ --mode streaming \ --motion_frame 9 \ --save_file infinitetalk_res_multiperson

2. 使用 FusioniX 或 Lightx2v（只需 4~8 步）
FusioniX需要8步，Lightx2V只需4步。

python generate_infinitetalk.py \ --ckpt_dir weights/Wan2.1-I2V-14B-480P \ --wav2vec_dir 'weights/chinese-wav2vec2-base' \ --infinitetalk_dir weights/InfiniteTalk/single/infinitetalk.safetensors \ --lora_dir weights/Wan2.1_I2V_14B_FusionX_LoRA.safetensors \ --input_json examples/single_example_image.json \ --lora_scale 1.0 \ --size infinitetalk-480 \ --sample_text_guide_scale 1.0 \ --sample_audio_guide_scale 2.0 \ --sample_steps 8 \ --mode streaming \ --motion_frame 9 \ --sample_shift 2 \ --num_persistent_param_in_dit 0 \ --save_file infinitetalk_res_lora

3. 使用量化模型运行（仅支持单显卡运行）

python generate_infinitetalk.py \ --ckpt_dir weights/Wan2.1-I2V-14B-480P \ --wav2vec_dir 'weights/chinese-wav2vec2-base' \ --infinitetalk_dir weights/InfiniteTalk/single/infinitetalk.safetensors \ --input_json examples/single_example_image.json \ --size infinitetalk-480 \ --sample_steps 40 \ --mode streaming \ --quant fp8 \ --quant_dir weights/InfiniteTalk/quant_models/infinitetalk_single_fp8.safetensors \ --motion_frame 9 \ --num_persistent_param_in_dit 0 \ --save_file infinitetalk_res_quant

4. 与Gradio一起奔跑

python app.py \ --ckpt_dir weights/Wan2.1-I2V-14B-480P \ --wav2vec_dir 'weights/chinese-wav2vec2-base' \ --infinitetalk_dir weights/InfiniteTalk/single/infinitetalk.safetensors \ --num_persistent_param_in_dit 0 \ --motion_frame 9

或

python app.py \

--ckpt_dir weights/Wan2.1-I2V-14B-480P \ --wav2vec_dir 'weights/chinese-wav2vec2-base' \ --infinitetalk_dir weights/InfiniteTalk/multi/infinitetalk.safetensors \ --num_persistent_param_in_dit 0 \ --motion_frame 9