Nvidia представила ИИ-модель на основе Stable Diffusion под названием VideoLDM. Она позволяет создавать видео в разрешении до 2048х1280 пикселей и длительностью до 4,7 секунды.
Наработка имеет до 4,1 млрд параметров, но только 2,7 млрд из них использовали для обучения. Это весьма скромно по меркам современных ИИ. Тем не менее, с помощью эффективного подхода к модели скрытой диффузии (LDM — Latent diffusion model) разработчики смогли создавать разнообразные и согласованные во времени видео высокого разрешения с весьма высоким качеством.
Модель от Nvidia также способна генерировать видео сцен вождения. Есть возможность моделирования конкретного сценария вождения, синтезируя начальный кадр, и создаются правдоподобные видеоролики.
Пока что представленная нейросеть является лишь исследовательским проектом и не доступна обычным пользователям. Ознакомиться с проектом можно по ссылке на официальном сайте.
Источник: 3DNews