В прошлом месяце OpenAI представила свой инновационный инструмент для преобразования текста в видео – Sora, который может создавать реалистичные видеоролики с разрешением 1080p. В настоящее время он доступен только небольшой группе создателей контента, которые тестируют его, чтобы найти уязвимости и заранее устранить их. В интервью Wall Street Journal технический директор OpenAI Мира Мурати сообщила, что они планируют запустить Sora для широкой публики до 2025 года, а возможно, это произойдёт уже «через несколько месяцев».
Уже сейчас, Sora генерирует контент в «реалистичном» стиле (за исключением рук и пальцев), но технический директор OpenAI заявляет, что они не предоставят этот инструмент общественности, пока не убедятся в его безопасности. Примечательно, что сгенерированные Sora видео также будут иметь водяные знаки, как и многие другие инструменты для генерации текста из изображений.
На вопрос о том, как этот инструмент может повлиять на работу создателей контента в будущем, технический директор Мурати сказала, что их цель – предоставить авторам больше инструментов, которые бы помогали в их работе, а не заменяли их.
На вопрос о том, какие данные они использовали для обучения Sora, она не стала вдаваться в подробности, а просто сказала, что это «общедоступные и лицензированные данные». Это могут быть видео с YouTube, Facebook, Instagram и аналогичных платформ.
Стоит отметить, что Sora не включает звук в сгенерированных клипах, и как сообщается, OpenAI планирует интегрировать аудио в будущем. Хотя, возможно, это будет не Sora, а ещё более совершенная версия с другим названием. Так же, как и за DALL-E, использование модели будет доступно через платную подписку.