Содержание
OpenAI выпустила ChatGPT Images 2.0 — крупное обновление генератора изображений в ChatGPT. Компания говорит, что модель стала точнее читать сложные промпты и чаще выдаёт структурированные, согласованные картинки. Ключевое изменение — перед генерацией появился шаг рассуждения, который помогает «собрать» запрос в план.
Шаг рассуждения перед генерацией: меньше «угадывания» промпта
Главная идея ChatGPT Images 2.0 — модель не просто быстро интерпретирует запрос, а сначала «продумывает» его. По описанию OpenAI, система разбивает промпт на части, решает, как они должны сочетаться, и только потом рисует итог.
Из-за этого генерация может занимать больше времени. Зато, по задумке компании, пользователь реже упирается в цикл «перегенерировать 10 раз». Раньше именно на сложных запросах чаще всего и разваливалась логика сцены.
OpenAI отдельно подчёркивает, что модель может учитывать дополнительный контекст. В том числе загруженные пользователем файлы и другие источники в сети. В новости не уточняют, какие именно источники и в каких режимах доступны.
Что улучшили в картинках: текст, компоновка и стабильность серий
Самое заметное улучшение — текст внутри изображений. Это давняя боль генераторов: буквы «плывут», интервалы ломаются, слова превращаются в набор символов. OpenAI говорит, что в Images 2.0 постеры, меню, слайды и другие форматы, где важна читаемость, получаются надёжнее.
Вторая точка роста — компоновка. Если вы просите конкретный макет, с элементами в заданных местах, модель чаще воспринимает запрос как инструкцию. А не как «примерное пожелание».
Третье — консистентность. Несколько изображений на одной идее теперь чаще держат общий стиль. И лучше сохраняют узнаваемость персонажа или объекта от кадра к кадру.
- Текст в кадре: меньше искажений и «псевдошрифтов»
- Структура: лучше соблюдает заданные места и элементы
- Серийность: больше стабильности стиля и персонажей
Конкуренция с Google Gemini: OpenAI подтягивает мультимодальность
OpenAI прямо позиционирует обновление как шаг к мультимодальным сценариям уровня Google Gemini. Gemini давно делает ставку на связку текста, изображений и контекста в одной системе. На этом фоне старый генератор картинок в ChatGPT выглядел слабее в задачах, где важны структура и связность.
Images 2.0, по заявлению OpenAI, сокращает этот разрыв. Особенно там, где важны рассуждения и работа с текстом в изображении. Компания не называет это победой над Gemini, но подчёркивает «сближение по возможностям».
Глава OpenAI Сэм Альтман заявил на стриме анонса: «Images 2.0 is a huge step forward. It’s like going from GPT-3 to GPT-5 all at once». По его словам, команда сделала акцент на том, чтобы изображения выглядели как ответ на запрос, а не как свободная интерпретация.