August 28, 10:46

Я довольно много раз писал про нейронную сеть BigGAN – она способна не только синтезировать объекты в высоком качестве, но также способна смешивать классы объектов – как например тут или тут.

Теперь пришло время делать так же, но уже с видео – ниже видео которое мой мозг отказывается понимать и на котором я буквально не могу сфокусироваться. Это нейронка DVD-GAN (Респект авторам за название) генерирует короткие видео-сцены 256х256 пикселей на основе такого же датасета, что использовал, например, BigGan.

Отдельно хочется отметить (что просто не помещается у меня в голове), нейронка не генерирует для видео кадр за кадром в виде картинок, а потом склеивает это все в видео, DVD-GAN генерирует ВСЮ СЦЕНУ СРАЗУ, то есть сразу пару секунд видео.

Вот тут есть видео, где довольно клево рассказано как она устроена на английском (кроме того, как всегда советую подписаться на канал автора):

youtu.be/IMZkLVBhcig

А тут документ с исследованием и формулами:

arxiv.org/abs/1907.06571

И еще одна гифка с примером работы DVD-GAN