Компания OpenAI известна всему миру в первую очередь своим чат-ботом ChatGPT. Есть у неё и другие продукты в сфере искусственного интеллекта. Модель Sora способна создавать видеоклипы при помощи текстовой информации, yо пока она не стала общедоступной. Теперь представлена другая модель, которая умеет синтезировать звук.
Длительность сэмпла может составлять всего 15 секунд, чего хватает для создания реалистичного синтетического звука. Поддерживаются разные языки на основе одного примера. Модель называется Voice Engine и размер у неё довольно маленький, поэтому результаты кажутся ещё более впечатляющими.
Эта технология разрабатывалась минимум с 2022 года. Она лежит в основе интерфейса прикладного программирования преобразования текст в речь и ChatGPT Voice и Read Aloud.
Релиз для широкой публики в ближайшее время не планируется. Причина кроется в возможных проблемах с конфиденциальностью, когда голос смогут копировать без согласия человека, особенно в год выборов президента США. Также разработчики призывают финансовые учреждения отказаться от распознавания голоса для входа в системы при наличии подобных технологий.