声音好听,颜值能打,基于 PaddleGAN 给人工智能 AI 语音模型配上动态画面(Python3.10)

借助 So-vits 我们可以自己训练五花八门的音色模型，然后复刻想要欣赏的任意歌曲，实现点歌自由，但有时候却又总觉得少了点什么，没错，缺少了画面，只闻其声，却不见其人，本次我们让 AI 川普的歌声和他伟岸的形象同时出现，基于 PaddleGAN 构建“靓声靓影”的“懂王”。PaddlePaddle 是百度开源的深度学习框架，其功能包罗万象，总计覆盖文本、图像、视频三大领域 40 个模型，可谓是在深度学习领域无所不窥。PaddleGAN 视觉效果模型中一个子模块 Wav2lip 是对开源库 Wav2lip 的二次封装和优化，它实现了人物口型与输入的歌词语音同步，说白了就是能让静态图的唇部动起来……