VideoLDM - ИИ-модель от Nvidia способная создавать видеоролики

Nvidia представила ИИ-модель на основе Stable Diffusion под названием VideoLDM. Она позволяет создавать видео в разрешении до 2048х1280 пикселей и длительностью до 4,7 секунды.

Наработка имеет до 4,1 млрд параметров, но только 2,7 млрд из них использовали для обучения. Это весьма скромно по меркам современных ИИ. Тем не менее, с помощью эффективного подхода к модели скрытой диффузии (LDM — Latent diffusion model) разработчики смогли создавать разнообразные и согласованные во времени видео высокого разрешения с весьма высоким качеством.

Модель от Nvidia также способна генерировать видео сцен вождения. Есть возможность моделирования конкретного сценария вождения, синтезируя начальный кадр, и создаются правдоподобные видеоролики.

Пока что представленная нейросеть является лишь исследовательским проектом и не доступна обычным пользователям. Ознакомиться с проектом можно по ссылке на официальном сайте.

Продолжение после рекламы