news 2026/5/8 23:10:43

[AI工具]Infinite Talk数字人对口型图像转视频AI工具 支持无限时长视频生成

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
[AI工具]Infinite Talk数字人对口型图像转视频AI工具 支持无限时长视频生成

简介说明

Infinite Talk数字人对口型图像转视频AI工具 支持无限时长视频生成
InfiniteTalk AI:音频驱动的视频生成框架
InfiniteTalk AI是由 MeiGen AI 开发的先进音频驱动视频生成框架,

专注于将静态图像或现有视频与音频结合,生成无限时长的逼真说话视频,

实现精准唇形同步和全身动作协调。
核心功能

核心优势说明
精准唇形同步口型与音频毫秒级匹配,自然度远超传统工具
身份保持长时间生成中人物特征稳定不变
情感表达能将音频情感映射到面部表情和肢体语言
高效性能单GPU支持长时生成,多GPU可扩展

通过分析音频特征,仅需生成关键稀疏帧,再智能插值补全,既保证效率又确保自然流畅。
核心优势
优势 说明
精准唇形同步 口型与音频毫秒级匹配,自然度远超传统工具
身份保持 长时间生成中人物特征稳定不变
情感表达 能将音频情感映射到面部表情和肢体语言
高效性能 单 GPU 支持长时生成,多 GPU 可扩展
典型应用场景
教育领域:虚拟讲师制作、课程多语言本地化
企业宣传:产品解说、多语种企业介绍视频快速制作
自媒体创作:博主可不出镜完成内容量产
影视制作:配音替换、角色对话重制
使用方式
通过官网 (infinitetalk.app) 上传人像素材和音频,选择生成参数,即可获得高质量的 Talking Video。
总结:InfiniteTalk AI 重新定义了音频驱动视频生成,为内容创作提供了前所未有的自由度,让 "一张照片开口说话" 成为现实,且支持无限时长、自然流畅的表达。

快速入门
1. 创建一个 conda 环境并安装 pytorch、xformers

conda create -n multitalk python=3.10 conda activate multitalk pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121 pip install -U xformers==0.0.28 --index-url https://download.pytorch.org/whl/cu121

2. Flash-attn installation:

pip install misaki[en] pip install ninja pip install psutil pip install packaging pip install wheel pip install flash_attn==2.7.4.post1

3. 其他依赖关系

pip install -r requirements.txt conda install -c conda-forge librosa

4. FFmeg安装

conda install -c conda-forge ffmpeg

或者

sudo yum install ffmpeg ffmpeg-devel

模型下载

ModelsDownload LinkNotes
Wan2.1-I2V-14B-480P🤗 HuggingfaceBase model
chinese-wav2vec2-base🤗 HuggingfaceAudio encoder
MeiGen-InfiniteTalk🤗 HuggingfaceOur audio condition weights

Download models using huggingface-cli:

huggingface-cli download Wan-AI/Wan2.1-I2V-14B-480P --local-dir ./weights/Wan2.1-I2V-14B-480P huggingface-cli download TencentGameMate/chinese-wav2vec2-base --local-dir ./weights/chinese-wav2vec2-base huggingface-cli download TencentGameMate/chinese-wav2vec2-base model.safetensors --revision refs/pr/1 --local-dir ./weights/chinese-wav2vec2-base huggingface-cli download MeiGen-AI/InfiniteTalk --local-dir ./weights/InfiniteTalk

🔑 快速推理
我们的型号兼容480P和720P两种分辨率。
Some tips

Lip synchronization accuracy:​​ Audio CFG works optimally between 3–5. Increase the audio CFG value for better synchronization. FusionX: While it enables faster inference and higher quality, FusionX LoRA exacerbates color shift over 1 minute and reduces ID preservation in videos. V2V generation: Enables unlimited length generation. The model mimics the original video's camera movement, though not identically. Using SDEdit improves camera movement accuracy significantly but introduces color shift and is best suited for short clips. Improvements for long video camera control are planned. I2V generation: Generates good results from a single image for up to 1 minute. Beyond 1 minute, color shifts become more pronounced. One trick for the high-quailty generation beyond 1 min is to copy the image to a video by translating or zooming in the image. Here is a script to convert image to video. Quantization model: If your inference process is killed due to insufficient memory, we suggest using the quantization model, which can help reduce memory usage.

一些建议

唇同步精度:音频CFG的最佳表现为3–5。提高音频CFG值以实现更好的同步。 FusionX:虽然它能实现更快的推断和更高质量,但FusionX LoRA会加剧1分钟内的色移,并降低视频中的识别保护。 V2V生成:支持无限长度的生成。模型模仿了原始视频的摄像机运动,但并不完全相同。使用SDEdit显著提升了摄像机运动的准确性,但引入了色彩偏移,更适合短片段。计划改进长距离摄像机控制。 I2V生成:单张图像能产生长达1分钟的良好效果。超过1分钟后,颜色变化会更明显。对于高质量生成超过1分钟的一个技巧是通过将图像进行翻译或放大,将图像复制到视频中。这里有一个脚本,可以把图片转换成视频。 量化模型:如果您的推理过程因内存不足而终止,我们建议使用量化模型,这有助于减少内存使用。

InfiniteTalk 的使用

--mode streaming: long video generation. --mode clip: generate short video with one chunk. --use_teacache: run with TeaCache. --size infinitetalk-480: generate 480P video. --size infinitetalk-720: generate 720P video. --use_apg: run with APG. --teacache_thresh: A coefficient used for TeaCache acceleration —-sample_text_guide_scale: When not using LoRA, the optimal value is 5. After applying LoRA, the recommended value is 1. —-sample_audio_guide_scale: When not using LoRA, the optimal value is 4. After applying LoRA, the recommended value is 2. —-sample_audio_guide_scale: When not using LoRA, the optimal value is 4. After applying LoRA, the recommended value is 2. --max_frame_num: The max frame length of the generated video, the default is 40 seconds(1000 frames).

1. 推断
1)单显卡运行

python generate_infinitetalk.py \ --ckpt_dir weights/Wan2.1-I2V-14B-480P \ --wav2vec_dir 'weights/chinese-wav2vec2-base' \ --infinitetalk_dir weights/InfiniteTalk/single/infinitetalk.safetensors \ --input_json examples/single_example_image.json \ --size infinitetalk-480 \ --sample_steps 40 \ --mode streaming \ --motion_frame 9 \ --save_file infinitetalk_res

2)运行720P版本
如果你想用720P运行,可以设置:--size infinitetalk-720

python generate_infinitetalk.py \ --ckpt_dir weights/Wan2.1-I2V-14B-480P \ --wav2vec_dir 'weights/chinese-wav2vec2-base' \ --infinitetalk_dir weights/InfiniteTalk/single/infinitetalk.safetensors \ --input_json examples/single_example_image.json \ --size infinitetalk-720 \ --sample_steps 40 \ --mode streaming \ --motion_frame 9 \ --save_file infinitetalk_res_720p

3)显存非常低
如果你想用非常低的显存运行,可以设置:--num_persistent_param_in_dit 0

python generate_infinitetalk.py \ --ckpt_dir weights/Wan2.1-I2V-14B-480P \ --wav2vec_dir 'weights/chinese-wav2vec2-base' \ --infinitetalk_dir weights/InfiniteTalk/single/infinitetalk.safetensors \ --input_json examples/single_example_image.json \ --size infinitetalk-480 \ --sample_steps 40 \ --num_persistent_param_in_dit 0 \ --mode streaming \ --motion_frame 9 \ --save_file infinitetalk_res_lowvram

4)多GPU推断

GPU_NUM=8 torchrun --nproc_per_node=$GPU_NUM --standalone generate_infinitetalk.py \ --ckpt_dir weights/Wan2.1-I2V-14B-480P \ --wav2vec_dir 'weights/chinese-wav2vec2-base' \ --infinitetalk_dir weights/InfiniteTalk/single/infinitetalk.safetensors \ --dit_fsdp --t5_fsdp \ --ulysses_size=$GPU_NUM \ --input_json examples/single_example_image.json \ --size infinitetalk-480 \ --sample_steps 40 \ --mode streaming \ --motion_frame 9 \ --save_file infinitetalk_res_multigpu

5)多人动画

python generate_infinitetalk.py \ --ckpt_dir weights/Wan2.1-I2V-14B-480P \ --wav2vec_dir 'weights/chinese-wav2vec2-base' \ --infinitetalk_dir weights/InfiniteTalk/multi/infinitetalk.safetensors \ --input_json examples/multi_example_image.json \ --size infinitetalk-480 \ --sample_steps 40 \ --num_persistent_param_in_dit 0 \ --mode streaming \ --motion_frame 9 \ --save_file infinitetalk_res_multiperson

2. 使用 FusioniX 或 Lightx2v(只需 4~8 步)
FusioniX需要8步,Lightx2V只需4步。

python generate_infinitetalk.py \ --ckpt_dir weights/Wan2.1-I2V-14B-480P \ --wav2vec_dir 'weights/chinese-wav2vec2-base' \ --infinitetalk_dir weights/InfiniteTalk/single/infinitetalk.safetensors \ --lora_dir weights/Wan2.1_I2V_14B_FusionX_LoRA.safetensors \ --input_json examples/single_example_image.json \ --lora_scale 1.0 \ --size infinitetalk-480 \ --sample_text_guide_scale 1.0 \ --sample_audio_guide_scale 2.0 \ --sample_steps 8 \ --mode streaming \ --motion_frame 9 \ --sample_shift 2 \ --num_persistent_param_in_dit 0 \ --save_file infinitetalk_res_lora

3. 使用量化模型运行(仅支持单显卡运行)

python generate_infinitetalk.py \ --ckpt_dir weights/Wan2.1-I2V-14B-480P \ --wav2vec_dir 'weights/chinese-wav2vec2-base' \ --infinitetalk_dir weights/InfiniteTalk/single/infinitetalk.safetensors \ --input_json examples/single_example_image.json \ --size infinitetalk-480 \ --sample_steps 40 \ --mode streaming \ --quant fp8 \ --quant_dir weights/InfiniteTalk/quant_models/infinitetalk_single_fp8.safetensors \ --motion_frame 9 \ --num_persistent_param_in_dit 0 \ --save_file infinitetalk_res_quant

4. 与Gradio一起奔跑

python app.py \ --ckpt_dir weights/Wan2.1-I2V-14B-480P \ --wav2vec_dir 'weights/chinese-wav2vec2-base' \ --infinitetalk_dir weights/InfiniteTalk/single/infinitetalk.safetensors \ --num_persistent_param_in_dit 0 \ --motion_frame 9

python app.py \

--ckpt_dir weights/Wan2.1-I2V-14B-480P \ --wav2vec_dir 'weights/chinese-wav2vec2-base' \ --infinitetalk_dir weights/InfiniteTalk/multi/infinitetalk.safetensors \ --num_persistent_param_in_dit 0 \ --motion_frame 9

图片预览


效果预览


https://www.bilibili.com/video/BV1pBqHB4EoW/


下载地址


https://github.com/MeiGen-AI/InfiniteTalk

https://pan.quark.cn/s/f425d805167f

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/7 8:34:39

XSS(跨站脚本攻击)

XSS(跨站脚本攻击) 什么是XSS? XSS(Cross-Site Scripting) 是一种Web安全漏洞,攻击者将恶意脚本注入到其他用户会访问的网页中。 当用户浏览被感染的网页时,恶意脚本会在用户浏览器中执行&…

作者头像 李华
网站建设 2026/5/8 13:23:31

强制式双卧轴搅拌机:型号谱系、核心参数与性能深度剖析!

在混凝土工程领域,强制式双卧轴搅拌机凭借其高效、均匀的搅拌性能,已成为商混站、预制构件厂及大型基建项目的核心设备。小编从行业标准出发,结合工程实践数据,系统梳理双卧轴搅拌机的型号分类、关键参数及性能优化方向&#xff0…

作者头像 李华
网站建设 2026/5/7 19:27:40

信捷XDPLC十轴及以下万能通用程序模板:进制的巧妙运用

信捷XDPLC十轴(包含)及以下万能通用程序模板,用进制在自动化控制领域,信捷XDPLC的应用十分广泛。今天咱就来聊聊基于进制思维打造的信捷XDPLC十轴及以下万能通用程序模板,绝对能给你的PLC编程工作带来不少便利。 一、进制在PLC编程中的重要性…

作者头像 李华
网站建设 2026/5/1 2:56:08

pydantic_ai 意图识别

codefrom enum import Enumfrom dotenv import load_dotenv from pydantic import BaseModelclass IntentEnum(str, Enum):eat "吃饭"action "运动"UNKNOWN "UNKNOWN"class IntentResult(BaseModel):intent: IntentEnumconfidence: float | N…

作者头像 李华
网站建设 2026/5/8 0:10:00

新能源电池企业如何通过海外社媒Facebook+TikTok整合营销开拓全球B2B市场

在全球能源转型的浪潮下,中国新能源制造企业正积极通过数字化渠道连接全球采购商。近期,云百邦与一家拥有深厚行业积淀的深圳新能源电池企业达成合作,通过整合Facebook与TikTok的海外推广策略,共同探索B2B数字营销的高效路径。客户…

作者头像 李华