May 28, 07:41

Я как-то пропустил, на той неделе появилось целых два клевых алгоритма которые работают со звуком.

Инженеры компании Dessa опубликовали видео работы алгоритма RealTalk, где был синтезирован голос Джо Рогана (автор самого популярного подкаста мира) – послушайте качество, это как DeepFake но уже для голоса.

youtu.be/DWK_iYBl8cA

Ха-ха, офигенно. Офигенно страшно.

Алгоритм просто «прочитал» текст, то есть это уже рабочий text-to-speech.

Инженеры не выкладывают исходный код алгоритма, так как считают, что это довольно опасно – но мне кажется это лишь вопрос времени пока кто-то его повторит и выложит на github, один фиг в будущем придется как-то дополнительно проверять тех кто вам позвонил, так как при обладании достаточным датасетом, можно будет скопировать любой голос. В будущем не занимайте кому-то денег по телефону, в общем.

Google показал немного похожий алгоритм – вы отправляете Google-переводчику какое-то аудио на иностранном языке, а в результате он «синтезирует» переведенную версию фразы, но с вашим голосом. Это все пока только исследования, вот тут больше деталей и примеры.

RealTalk: We Recreated Joe Rogan's Voice Using Artificial Intelligence
This video is the product of Dessa Engineers, Hashiam Kadhim, Joseph Palermo, and Rayhane Mama. The Engineers used artificial intelligence to recreate Joe Ro...