数字人SyncTalk解压即用N卡整合版_240607

哨箭勇度 · 发表于 2024-6-7 02:51:17

本帖最后由哨箭勇度于 2024-9-28 20:30 编辑

数字人SyncTalk解压即用N卡整合版_240607 (GITHUB版本为：240528)

● 介绍（这些都不需要打开，只是介绍。整合包解压即用）
开源地址：https://github.com/ZiqiaoPeng/SyncTalk
下载地址：https://www.ooai8.com/thread-36938-1-1.html
更新地址：https://www.ooai8.com/forum-143-1.html
作者主页地址：https://space.bilibili.com/2024652747
学习交流群Q：42940310、17108654
电报交流群：https://t.me/+F_28YPoKZXIxYWY1

● 亮点
○ 支持视频的真3D数字人
○ 支持训练
○ 在素材优秀训练得当前提下，是目前论坛上限最高的数字人。

● 使用条件
○ 操作系统：Win10、Win11
○ 最低显卡：英伟达显卡（N卡）1050 4G
○ 重要说明：2080 22G魔改卡经用户反馈，无法进行训练。经过我和好多网友的不断排查，终于发现是魔改驱动不完整造成。
○ 其它魔改卡以此类推，因魔改卡驱动都是非官方，修改能力良莠不齐。若对自己魔改的驱动有信心可以尝试，不保证魔改驱动是否可行请勿下载，或者QQ联系我提前给你测试一下
○ VS、CUDA：不需要、整合包解压即用。
○ CUDA版本：虽然不需要额外安装CUDA，但要确保你的显卡驱动正常，且驱动版本不能太旧，要求驱动里CUDA版本>=11.8。
怎样查看你显卡的CUDA版本：https://www.ooai8.com/thread-28927-1-1.html

● 更新
[2023-11-30] 更新arXiv论文。
[2024-03-04] 代码和预训练模型发布。
[2024-03-22] Google Colab 笔记本发布。
[2024-04-14] 添加 Windows 支持。
[2024-04-28] 预处理代码发布。
[2024-04-29] 修复音频编码器、混合形状捕获和人脸跟踪器的 bug。
[2024-05-03] 尝试将 NeRF 替换为高斯 Splatting。代码： GS-SyncTalk
[2024-05-24] 引入躯干训练修复双下巴。

● 免责声明
此软件仅供娱乐、不可用于视频欺骗、人脸识别等一切违反法律的欺诈行为。若有此行为是用户个人行为。与资源发布者无关。

● 使用声明
此程序为开源项目，本程序由圈圈AI吧(ooai8.com)整合修改升级，【解压即用】、【无需授权】、【不限机器】、【不限次数】、【离线运行】。软件只要下载到您手上，就可以永久使用。
注册成功后可直接获得论坛积分。若积分不够，可以通过登录、签到、发帖等日常操作免费获取。通常发几个帖子签到等，就可以获得足够积分下载。此外打赏作者可快速获得积分。

● 数据集制作
○ 首先准备一个MP4格式的视频，要求视频必须为 25FPS，所有帧都包含说话的人脸。分辨率应约为 512x512，持续时间约为 4-5 分钟。
以上要求为官网作者提供，UP尝试使用40秒的视频作为素材依旧可以成功训练并推理，但是效果欠佳。建议以官方要求为主。
想了解更多可查看官方主页：https://github.com/ZiqiaoPeng/SyncTalk
○ 修改视频文件名，必须是英文数字下划线组合，禁止使用特殊符合或中文，例如：May、Jack、Tom、Tina等，后缀名为mp4
○ 将视频放在整合包内/data/文件名/文件名.mp4。假设你取名为：Trump  并假设你整合包放在D盘根目录，那么视频的完整地址是：
整合包根目录/data/Trump/Trump.mp4 （整合包目录不要带有任何中文或空格，不要套层级太多，推荐放到磁盘根目录）
○ 打开【数据集生成器.exe】在下边的请输入冒号后输入你想要生成的数据集，比如您想为【/data/Trump/Trump.mp4】生成数据集，那么只需输入：Trump
○ 输入好以后不要关闭窗口，请耐心等待数据集生成，若想看到文件变化可进入/data/Trump/目录下进行观察。
○ 当程序出现 [INFO] ===== finished saving transforms ===== 代表数据集生成完毕
○ 以上为默认的数据集生成方式，假若你想生成deepspeech方式的数据集，需要在上述步骤完成后把里边的aud.wav转换成成NPY文件。
具体操作方法是打开【音频转NPY工具.exe】，输入您的数据集里aud.wav路径，例如：/data/Trump/Trump.mp4

● 训练

○ 假定您第一步在制作数据集的时候，启用的名称是【May】下文以此为例详细介绍训练命令
○ 打开【命令行调试器.exe】输入以下命令：
# python main.py data/May --workspace model/trial_may -O --iters 60000 --asr_model ave
注意：若您的名称不是May请替换命令中的May，一共两处。前边的 data/May 是您在第一步生成好的数据集目录。
后边的 model/trial_may 是训练后的生成目录，训练完成模型保存到这里。
例子：假设您第一步数据集名称为May，那么训练的命令就是：（以下三种方式任选其一）

○ ave方式：（适用于具有准确口型同步和大嘴唇运动的角色）
# python main.py data/May --workspace model/trial_may -O --iters 60000 --asr_model ave
# python main.py data/May --workspace model/trial_may -O --iters 100000 --finetune_lips --patch_size 64 --asr_model ave

○ deepspeech方式：（如果您的训练结果显示嘴唇抖动，请尝试使用 deepspeech 或 hubert 模型作为音频特征编码器。）
python main.py data/May --workspace model/trial_may -O --iters 60000 --asr_model deepspeech
python main.py data/May --workspace model/trial_may -O --iters 100000 --finetune_lips --patch_size 64 --asr_model deepspeech

○ hubert方式：（如果您的训练结果显示嘴唇抖动，请尝试使用 deepspeech 或 hubert 模型作为音频特征编码器。）
python main.py data/May --workspace model/trial_may -O --iters 60000 --asr_model hubert
python main.py data/May --workspace model/trial_may -O --iters 100000 --finetune_lips --patch_size 64 --asr_model hubert

○ 训练时间比较长，请耐心等待，提供一个参考，UP用案例视频4分多钟长，大约不到3个小时，不同机器配置有差异仅供参考。

● 推理

○ 整合包自带训练好的May模型，若未经过上边两步，可直接用训练好的May模型进行推理，注意：一个模型对应一个视频，以此推理效果也只是案例视频的数字人。
○ 推理自己的数字人，首选确保完成了上边的两步：【数据集制作】、【训练】。
○ 假定您训练好的模型为：May，那么您的推理代码为：
○ ave方式：
# python main.py data/May --workspace model/trial_may -O --test --test_train --asr_model ave --portrait --aud ./inputs/audio.wav
○ deepspeech方式：
注意，此种方式需要将你的音频文件转换为NPY格式，可以使用整合版内的【音频转NPY工具.exe】工具。
# python main.py data/May --workspace model/trial_may -O --test --test_train --asr_model ave --portrait --aud ./inputs/audio_ds.npy
命令解释：
python main.py data/May       这是您第一步生成数据集的位置。
--workspace model/trial_jack 这是您第二步训练好模型的位置。
--aud ./inputs/audio.wav       这是您自己的音频路径，可以是相对路径，也可以是绝对路径，使用时可以自定义文件名，路径对应正确即可，注意音频不能用中文命名。
○ 同样打开【命令行调试器.exe】输入您的推理命令。

配套教学视频：1、推理：https://www.bilibili.com/video/BV1Un4y1Q7YW
配套教学视频：2、数据集：https://www.bilibili.com/video/BV1Ni421e7JU
配套教学视频：3、训练：https://www.bilibili.com/video/BV1ks421u74m
配套教学视频：4、训练2：https://www.bilibili.com/video/BV13s421M7mp
配套教学视频：5、DS方式：https://www.bilibili.com/video/BV1Dw4m1e7fP
配套教学视频：6、DS效果展示：https://www.bilibili.com/video/BV181421C7DF
配套教学视频：7、Hubert效果展示：https://www.bilibili.com/video/BV1Fx4y187pg

● 常见错误：
○ 整合包一定要放在非中文目录，且不能有空格和特殊字符，推荐放在磁盘根目录以避免路径过长导致识别障碍。

● 报错问答：
有问题请反映到：https://www.ooai8.com
常见问题我会在B站做视频解答

● 下载必读：若您有意下载，请务必阅读本段内容
○ 此软件为论坛目前第一款可训练的数字人项目
○ 此软件为真3D数字人
○ 此软件为视频制作数字人，不支持图片
○ 此软件为高清数字人，脸部区域分辨率为512x512，
○ 官方案例不包含身体。若有贴回身体需求请自行解决，务必须知。
○ 若需要贴回身体也可以尝试将身体一同训练，但视频依旧要保持512X512，动手能力强的可自行尝试。
○ 软件为开源软件，UP所做的是将复杂的依赖关系和模型等资源进行整合。做到了解压即用。离线使用。UP未做任何功能性改动。所以在使用中可参考官方文档进行操作。
○ UP做了些非功能性改动：1、修复BUG若干。2、增加命令行调试器、数据集生成器、NPY生成工具、音频16K工具。
○ UP用案例视频训练和推理效果惊艳，但是在使用自己的素材时效果不佳。在经过反复尝试后，严格安装官网的要求和案例视频做参考，终于达到了和官网案例一样的效果。以下经验供参考：素材视频时长建议4-5分钟，最好是连贯的，不够可剪辑拼凑。素材视频脸部区域占中，比例可以参考案例视频。推荐使用原生25FPS的，如果是30FPS硬性转换为25FPS效果不好。如果是50FPS以上的视频，强行转换为25FPS效果还可以。视频务必使用512X512分辨率，不可自作聪明。如果以非AVE方式训练推理，需要将音频采样率转换为16000.
○ UP能保证的是，软件可以正常使用、真解压即用、离线使用、整合包完整、数据集生成成功。训练成功，推理成功。
○ 此软件上限极高，但对素材要求也高，需要您有足够的训练和推理经验。UP对软件素材选择，训练技巧，推理技巧还在体验和摸索中，UP可以和用户一起探讨交流，但不代表UP对训练很精通。UP能做到的是视频演示的效果，若您实力足够强大，可训练出比UP更优秀的数字人。UP保证整合包正常使用，并包含官方版本中所带的功能。并为您进行指导。

● 资源下载（登录可见）

szfjm · 发表于 2024-6-7 09:31:30

谢谢分享，等待中~~~~

mu1989012303 · 发表于 2024-6-7 09:36:07

好东西，等待中

wudevelop · 发表于 2024-6-7 22:24:52

谢谢分享，等待中~~~~

jiangyec · 发表于 2024-6-8 08:33:02

谢谢分享，等待中~~~~

szfjm · 发表于 2024-6-8 09:35:46

好贵好贵真的好贵

guyuyi · 发表于 2024-6-9 11:19:30

牛啊又出一款

jandown · 发表于 2024-6-11 15:53:05

感谢分享

ohmigosh · 发表于 2024-6-11 17:24:51

感谢分享

yzc281 · 发表于 2024-6-11 22:41:36

效果咋样

		自动登录	找回密码
密码			立即注册

数字人SyncTalk解压即用N卡整合版_240607

本帖子中包含更多资源

活跃会员

推广达人

突出贡献

优秀版主

荣誉管理

论坛元老