新手必看:HeyGem数字人视频系统保姆级使用教程
你是不是也遇到过这样的问题:想把一段专业讲解做成视频,但请真人出镜成本高、找剪辑师排期难、自己动手又不会调音配画?或者手头有一堆产品介绍文案,却卡在“怎么让它们活起来”这一步?
HeyGem数字人视频生成系统,就是为解决这类实际问题而生的——它不依赖网络上传,不绑定云服务,也不需要你懂代码或模型原理。只要你会点鼠标、会传文件,就能在本地服务器上,几分钟内生成口型自然、画面稳定、可批量复用的数字人讲解视频。
更重要的是,这篇教程专为零基础用户设计。没有术语轰炸,不讲模型架构,不提训练过程。只告诉你:点哪里、传什么、等多久、结果在哪、怎么用得更顺手。哪怕你第一次接触AI视频工具,照着做也能顺利完成第一条成品。
下面我们就从开机启动开始,一步步带你走完全部流程。全程真实操作视角,连按钮位置、提示文字、常见卡点都给你标清楚。
1. 启动系统:三步打开Web界面
别被“部署”“本地运行”这些词吓住——这个系统启动起来比打开一个网页还简单。
1.1 找到并执行启动脚本
系统预装在服务器的/root/workspace/heygem-digital-human目录下(路径以你实际部署为准)。进入该目录后,直接运行:
bash start_app.sh小贴士:这条命令本质是启动一个Python Web服务。如果你看到终端里开始刷出类似
Running on http://0.0.0.0:7860的提示,说明服务已成功启动;如果报错command not found,请确认当前路径是否正确,或检查start_app.sh文件是否存在且有执行权限(可用chmod +x start_app.sh补充授权)。
1.2 访问Web界面
打开任意浏览器(推荐 Chrome 或 Edge),在地址栏输入:
http://localhost:7860如果你是在远程服务器上操作(比如通过SSH连接),则需将localhost换成服务器的实际IP地址,例如:
http://192.168.1.100:7860小贴士:首次访问可能需要等待10–30秒——这是系统在加载AI模型。页面出现顶部导航栏和两个大标签页(“批量处理模式”“单个处理模式”)即表示就绪。若长时间白屏,请检查终端是否有报错,或尝试刷新页面。
1.3 查看运行状态(可选但实用)
所有后台动作都会实时记录在日志中,路径固定为:
/root/workspace/运行实时日志.log想随时知道系统在干什么?在另一个终端窗口执行:
tail -f /root/workspace/运行实时日志.log你会看到类似这样的输出:
[INFO] 正在加载Wav2Lip模型... [INFO] 模型加载完成,准备就绪 [INFO] 接收到新任务:audio_20251219.mp3 + video_01.mp4小贴士:日志用中文写成,读起来毫无障碍。遇到卡顿、失败或报错时,第一反应不是重启,而是看这里——90%的问题都能从日志里找到线索。
2. 批量处理模式:一次音频,生成多条视频
这是最常用、最高效的工作方式。适合场景:同一段课程讲解,要适配不同背景/服装/角度的讲师视频;同一段产品介绍,要生成多个版本用于不同渠道投放。
2.1 上传音频:先定“声音”
点击顶部标签页切换到“批量处理模式”,你会看到左侧第一个区域写着:“上传音频文件”。
- 点击该区域,或直接把
.wav/.mp3/.m4a文件拖进去; - 支持单文件上传,也支持一次拖入多个(系统会自动取第一个作为主音频);
- 上传成功后,下方会出现播放按钮 ▶,点击即可试听,确认音质清晰、无杂音、语速适中。
小贴士:音频质量直接影响口型同步效果。建议优先用
.wav(无损)或高质量.mp3(比特率 ≥128kbps)。手机录音前,尽量关闭空调、风扇等低频噪音源;TTS合成语音建议选用“自然女声”类音色,避免机械感过强的选项。
2.2 添加视频:再选“面孔”
紧邻音频上传区的右侧,是“拖放或点击选择视频文件”区域。
- 点击后弹出文件选择框,或直接将
.mp4/.mov/.avi等格式视频拖入; - 支持多选:按住
Ctrl(Windows)或Cmd(Mac)可同时勾选多个文件; - 上传完成后,左侧会自动生成一个带缩略图的视频列表,每条显示文件名和时长。
小贴士:视频不需要剪辑好。哪怕你有一段10分钟的完整讲课录像,系统也会自动截取其中人脸清晰、正对镜头的部分进行处理。但为提升成功率,建议提前用剪映、CapCut等免费工具裁出30–90秒的“标准片段”:人物居中、正面、光线均匀、背景干净。
2.3 预览与管理:所见即所得
视频列表不是摆设,它能帮你快速判断素材是否可用:
- 点击任意一条视频名称,右侧预览区会立即播放该视频;
- 若发现某条画面抖动严重、侧脸时间过长、或背景太乱,可直接选中它,点击下方“删除选中”按钮移除;
- 想清空重来?点“清空列表”——放心,这只是删掉列表引用,原始文件仍在服务器上。
小贴士:预览时注意观察人物嘴部区域。如果视频中人物经常低头、转头、捂嘴、戴口罩,系统可能无法准确建模唇形运动,建议换一条。
2.4 开始生成:进度一目了然
确认音频和视频都准备好后,点击右下角醒目的“开始批量生成”按钮。
界面上会立刻出现一个动态面板,包含四项实时信息:
- 当前处理的视频文件名
- 进度:
2/7(表示第2个,共7个) - 彩色进度条(随处理推进逐步填满)
- 状态提示:如“正在提取音频特征”“正在驱动面部动画”“正在合成视频”
整个过程无需人工干预。你可以去做别的事,或盯着进度条感受AI工作的节奏感。
小贴士:处理时间≈视频时长 × 1.5倍(例如30秒视频约需45秒)。若某条卡在某个状态超过2分钟,大概率是该视频帧率异常或编码不兼容,可先跳过,后续单独处理。
2.5 下载结果:一键打包,即拿即用
生成全部完成后,“生成结果历史”区域会自动刷新,显示所有成品缩略图。
- 点击任意缩略图 → 右侧播放器即时播放,确认口型、表情、画质是否满意;
- 想下载单个?先点击缩略图选中它,再点旁边带向下箭头的按钮();
- 想全量导出?点“📦 一键打包下载”,系统会在后台生成ZIP包;稍等几秒,点击“点击打包后下载”即可保存到本地电脑。
小贴士:所有生成视频默认保存在项目目录下的
outputs/子文件夹中。即使你没点下载,也可以通过FTP、SFTP或服务器文件管理器直接访问该路径获取原始文件。
2.6 历史管理:不占空间,不留遗憾
生成记录不会无限堆积:
- 分页浏览:底部有“◀ 上一页”“下一页 ▶”,每页显示12条;
- 删除单条:选中缩略图 → 点“🗑 删除当前视频”;
- 批量清理:勾选多个缩略图前的复选框 → 点“🗑 批量删除选中”。
小贴士:删除操作仅清除Web界面显示和
outputs/中对应文件,不影响你本地备份。建议每周花1分钟归档重要成果,再清空历史,保持系统轻快。
3. 单个处理模式:快速验证,即传即得
当你只想试试效果、调试参数、或临时生成一条视频时,这个模式更轻便。
3.1 左右分区,一目了然
界面分为左右两大块:
- 左侧:“上传音频文件”——操作同批量模式;
- 右侧:“上传视频文件”——同样支持拖放与点击选择;
上传后,两侧均提供播放按钮,方便你边听边看,确保音画匹配度。
3.2 一键生成,结果直达
点击中间偏下的“开始生成”按钮,进度提示会以简洁文字形式出现在按钮上方,如:
处理完成!耗时:00:42生成结果直接显示在下方“生成结果”区域,含缩略图+播放器+下载按钮,三步到位。
小贴士:单个模式适合做A/B测试。比如用同一段音频,分别搭配不同光照条件的视频,对比哪条口型更准、表情更自然,再决定批量用哪条。
4. 实用技巧与避坑指南:少走弯路,多出精品
光会操作还不够,真正用得顺、产得稳,靠的是这些来自真实踩坑的经验。
4.1 音频准备:声音是灵魂
- 推荐:纯人声录制(无背景音乐)、采样率16kHz或44.1kHz、单声道更稳;
- 避免:带强烈混响的会议室录音、夹杂键盘敲击/翻页声的音频、语速过快(>180字/分钟);
- 加分项:用Audacity免费软件做一次“降噪+标准化”,3分钟操作,效果立现。
4.2 视频准备:画面是载体
- 推荐:720p或1080p MP4格式、人物脸部占画面1/2以上、正脸静止、光线柔和均匀;
- 避免:手机横拍但旋转90°上传(系统不自动校正)、戴粗框眼镜反光、头发遮挡嘴角、背景大幅移动(如窗外车流);
- 加分项:提前用剪映“智能抠像”功能去掉复杂背景,换成纯色或渐变底,大幅提升识别稳定性。
4.3 性能与效率:心里有数,不干等
| 场景 | 预估耗时(以30秒视频为例) | 提示说明 |
|---|---|---|
| 首次运行(模型未加载) | 2–3分钟 | 后续任务秒级响应 |
| CPU服务器(无GPU) | 1.5–2.5分钟 | 建议单次不超过3条,避免内存溢出 |
| GPU服务器(RTX 3060+) | 20–50秒 | 批量10条也只需3–5分钟,推荐主力选择 |
小贴士:不确定服务器有没有GPU?在终端执行
nvidia-smi,若有显卡信息显示,系统会自动启用加速,无需额外配置。
4.4 常见问题速查(比翻文档更快)
Q:上传后没反应,按钮灰了?
A:检查文件格式是否在支持列表内(音频:wav/mp3/m4a;视频:mp4/mov/avi);确认文件大小未超浏览器限制(一般<2GB)。Q:生成视频嘴不动,或口型明显错位?
A:90%是音频质量问题。换一段更干净的录音重试;若仍不行,可能是视频中人物说话时嘴部被遮挡,换一条素材。Q:下载ZIP包打不开,提示“损坏”?
A:浏览器下载中断所致。请重新点击“点击打包后下载”,或直接进服务器outputs/目录用FTP下载原始MP4文件。Q:想改生成分辨率或帧率?
A:当前版本暂不开放参数调节。如需定制(如统一输出1080p@30fps),可联系开发者科哥(微信:312088415)提供二次开发支持。
5. 总结:你已经掌握了数字人视频生产的底层逻辑
回顾一下,你刚刚完成了一整套闭环操作:
- 启动服务 → 访问界面 → 上传音视频 → 批量生成 → 预览下载 → 清理归档。
这背后没有魔法,只有清晰的设计:把复杂的AI能力封装成“上传→点击→下载”三个动作。它不追求炫技,只专注解决一个核心问题——让知识表达更轻、更快、更可控。
你不需要成为AI专家,也能拥有自己的数字人摄制组;你不用投入百万设备,一台带显卡的普通工作站就能跑起来;你不必担心数据外泄,所有音视频永远留在你的服务器里。
接下来,你可以试着做这些事:
- 把上周写的周报,配上一段语音,生成30秒工作汇报视频发到团队群;
- 用产品说明书文字生成TTS音频,再驱动数字人讲解,做出系列短视频;
- 给新人培训准备10条高频问答,批量生成“数字导师”讲解视频,嵌入内部学习平台。
工具的价值,从来不在参数多华丽,而在你愿意用它去完成多少件原来懒得做的事。
而HeyGem,就是那个让你愿意开始的第一步。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。