August 27, 12:11

Наткнулся на клевый алгоритм – как Prisma, но для аудио:

Вы даете алгоритму на вход 5 секунд какого-то голоса и mp3 файл который вы хотели бы сделать похожим на этот голос, на выходе вы получаете поддельный голос который говорит что вам нужно.

В видео есть пару примеров:

youtu.be/-O_hYhToKoA

Алгоритм помимо того, что работает почти в режиме реального времени, так еще и с открытым исходным кодом и даже с уже обученными весами "весами" под английский язык доступными любому желающему:

github.com/CorentinJ/Real-Time-Voice-Cloning

Real-Time Voice Cloning Toolbox
Project here: https://github.com/CorentinJ/Real-Time-Voice-Cloning Original paper: https://arxiv.org/abs/1806.04558