September 10, 08:05

В этот раз интересный проект из Китая: Нейронка DurIAN, по сути это два алгоритма внутри одного – один генерирует голос на основе текста, а второй лицевую анимацию (координаты в 3D), работают они в связке и позволяют сделать, например, 3D-ведущую новостей или комментировать дотку-олайн (Я правда не знаю что это за китайский аналог).

Примечательно, что инженерам удалось оптимизировать генерацию голоса нейронкой так, что она может работать на CPU и выдавать скорость в 6 раз больше нужную риалтайм озвучке (Это круто).

Вот демка где ведущая что-то рассказывает:

youtu.be/AnazWGADtnk

А вот, где 3D-аватар комментирует что-то дота-подобное:

youtu.be/30iXxgvvlkg

Работает клево, особенно генерация голоса – вот тут больше примеров

tencent-ailab.github.io/durian/

Еще алгоритм умеет менять эмоции генерируемого голоса, на странице с примерами есть "2006 Word Cup Jiangxiang Huang commentary generation (exciting)" очень забавно звучит, для нейронки совсем неплохо.

MMM