Содержание
Netflix открыла доступ к исследовательской модели VOID — это ИИ для видео, который не генерирует ролики с нуля, а переписывает уже снятые кадры. Главная фишка в том, что система не просто «замазывает» удалённый объект, а пересчитывает последствия в сцене: движение, столкновения и причинно-следственные связи.
Что такое Netflix VOID и чем он отличается от обычного «ластика»
Расшифровка названия — Video Object and Interaction Deletion. По смыслу это продвинутый «магический ластик» для видео: вы отмечаете объект, и он исчезает из кадра.
Но в VOID важнее другое. Модель пытается сохранить правдоподобие событий после удаления. То есть она не ограничивается фоновыми текстурами, а перестраивает кадры так, будто объекта никогда не было, и мир «подстроился» под это.
В демонстрациях и тестах разработчики показывают, что VOID учитывает физику и причинность. Это и делает инструмент потенциально опасным для доверия к видео как к «доказательству».
Примеры: гитара падает, авария «отменяется»

На практике VOID интересен именно на сложных сценах, где обычный инпейтинг ломает правдоподобие. В публичных примерах на GitHub модель ведёт себя так, как ожидает зритель.
- Guitar Test: из кадра удаляют человека, который держит гитару. VOID генерирует последовательность, где гитара больше не «держится в воздухе», а естественно падает на землю.
- Crash Test: из лобового столкновения удаляют одну машину. Вместо «призрачного» дыма и огня модель перестраивает траекторию второй машины так, будто аварии не было, и сцена превращается в обычную поездку по пустой дороге.
Зачем это Netflix: меньше пересъёмок и дешевле постпродакшн

Для индустрии кино и сериалов такой инструмент — про экономию на пересъёмках и ручной покадровой чистке. Если в кадр попала лишняя деталь, её можно удалить, а дальше дать модели «досчитать» последствия: брызги воды, оседающую пыль или изменения движения объектов.
И это не только про мелкие ошибки. Теоретически VOID подходит и для правок после завершения съёмок, когда возвращать команду на площадку слишком дорого. Вплоть до ситуаций, где удаление ключевого объекта меняет смысл сцены, а ИИ подгоняет остальное так, чтобы выглядело естественно.
Модель открытая, но требования к железу — как у дата-центра
Netflix выложила VOID в открытый доступ: модель доступна на Hugging Face по лицензии Apache 2.0. Есть и отдельная страница проекта с описанием: Video Object and Interaction Deletion.
Но запустить VOID «на домашнем ПК» сложно. Для комфортного инференса разработчики указывают видеокарту минимум с 40 ГБ VRAM — уровень NVIDIA A100 или H100. В основе — 5-миллиардная версия CogVideoX, а для разметки зон пересчёта используется проприетарная система quadmask.
Требование в 40 ГБ VRAM — это конкретная граница, которая сразу отсекает большинство потребительских видеокарт. Даже топовые игровые GPU обычно упираются в 16-24 ГБ.