声音好听,颜值能打,基于 PaddleGAN 给人工智能 AI 语音模型配上动态画面(Python3.10)

刘悦 at 
借助 So-vits 我们可以自己训练五花八门的音色模型,然后复刻想要欣赏的任意歌曲,实现点歌自由,但有时候却又总觉得少了点什么,没错,缺少了画面,只闻其声,却不见其人,本次我们让 AI 川普的歌声和他伟岸的形象同时出现,基于 PaddleGAN 构建“靓声靓影”的“懂王”。PaddlePaddle 是百度开源的深度学习框架,其功能包罗万象,总计覆盖文本、图像、视频三大领域 40 个模型,可谓是在深度学习领域无所不窥。PaddleGAN 视觉效果模型中一个子模块 Wav2lip 是对开源库 Wav2lip 的二次封装和优化,它实现了人物口型与输入的歌词语音同步,说白了就是能让静态图的唇部动起来……