Netflix VOID: ИИ переписывает видео

Содержание

Netflix открыла доступ к исследовательской модели VOID — это ИИ для видео, который не генерирует ролики с нуля, а переписывает уже снятые кадры. Главная фишка в том, что система не просто «замазывает» удалённый объект, а пересчитывает последствия в сцене: движение, столкновения и причинно-следственные связи.

Что такое Netflix VOID и чем он отличается от обычного «ластика»

Расшифровка названия — Video Object and Interaction Deletion. По смыслу это продвинутый «магический ластик» для видео: вы отмечаете объект, и он исчезает из кадра.

Изображение к статье: Netflix выложила VOID: ИИ удаляет объекты и «чинит» физику

Но в VOID важнее другое. Модель пытается сохранить правдоподобие событий после удаления. То есть она не ограничивается фоновыми текстурами, а перестраивает кадры так, будто объекта никогда не было, и мир «подстроился» под это.

Продолжение после рекламы

В демонстрациях и тестах разработчики показывают, что VOID учитывает физику и причинность. Это и делает инструмент потенциально опасным для доверия к видео как к «доказательству».

Примеры: гитара падает, авария «отменяется»

На практике VOID интересен именно на сложных сценах, где обычный инпейтинг ломает правдоподобие. В публичных примерах на GitHub модель ведёт себя так, как ожидает зритель.

Guitar Test: из кадра удаляют человека, который держит гитару. VOID генерирует последовательность, где гитара больше не «держится в воздухе», а естественно падает на землю.
Crash Test: из лобового столкновения удаляют одну машину. Вместо «призрачного» дыма и огня модель перестраивает траекторию второй машины так, будто аварии не было, и сцена превращается в обычную поездку по пустой дороге.

Зачем это Netflix: меньше пересъёмок и дешевле постпродакшн

Для индустрии кино и сериалов такой инструмент — про экономию на пересъёмках и ручной покадровой чистке. Если в кадр попала лишняя деталь, её можно удалить, а дальше дать модели «досчитать» последствия: брызги воды, оседающую пыль или изменения движения объектов.

Модель открытая, но требования к железу — как у дата-центра

Netflix выложила VOID в открытый доступ: модель доступна на Hugging Face по лицензии Apache 2.0. Есть и отдельная страница проекта с описанием: Video Object and Interaction Deletion.

Но запустить VOID «на домашнем ПК» сложно. Для комфортного инференса разработчики указывают видеокарту минимум с 40 ГБ VRAM — уровень NVIDIA A100 или H100. В основе — 5-миллиардная версия CogVideoX, а для разметки зон пересчёта используется проприетарная система quadmask.

Требование в 40 ГБ VRAM — это конкретная граница, которая сразу отсекает большинство потребительских видеокарт. Даже топовые игровые GPU обычно упираются в 16-24 ГБ.

Постоянный URL: https://trashexpert.ru/news/software-news/netflix-void-video-object-deletion

Наши обзоры и новости в Telegram