ChatGPT Images 2.0 получил шаг рассуждения

Содержание

OpenAI выпустила ChatGPT Images 2.0 — крупное обновление генератора изображений в ChatGPT. Компания говорит, что модель стала точнее читать сложные промпты и чаще выдаёт структурированные, согласованные картинки. Ключевое изменение — перед генерацией появился шаг рассуждения, который помогает «собрать» запрос в план.

Шаг рассуждения перед генерацией: меньше «угадывания» промпта

Главная идея ChatGPT Images 2.0 — модель не просто быстро интерпретирует запрос, а сначала «продумывает» его. По описанию OpenAI, система разбивает промпт на части, решает, как они должны сочетаться, и только потом рисует итог.

Из-за этого генерация может занимать больше времени. Зато, по задумке компании, пользователь реже упирается в цикл «перегенерировать 10 раз». Раньше именно на сложных запросах чаще всего и разваливалась логика сцены.

Продолжение после рекламы

Изображение к статье: OpenAI обновила ChatGPT Images 2.0: больше текста и логики

OpenAI отдельно подчёркивает, что модель может учитывать дополнительный контекст. В том числе загруженные пользователем файлы и другие источники в сети. В новости не уточняют, какие именно источники и в каких режимах доступны.

Что улучшили в картинках: текст, компоновка и стабильность серий

Самое заметное улучшение — текст внутри изображений. Это давняя боль генераторов: буквы «плывут», интервалы ломаются, слова превращаются в набор символов. OpenAI говорит, что в Images 2.0 постеры, меню, слайды и другие форматы, где важна читаемость, получаются надёжнее.

Вторая точка роста — компоновка. Если вы просите конкретный макет, с элементами в заданных местах, модель чаще воспринимает запрос как инструкцию. А не как «примерное пожелание».

Третье — консистентность. Несколько изображений на одной идее теперь чаще держат общий стиль. И лучше сохраняют узнаваемость персонажа или объекта от кадра к кадру.

Текст в кадре: меньше искажений и «псевдошрифтов»
Структура: лучше соблюдает заданные места и элементы
Серийность: больше стабильности стиля и персонажей

Конкуренция с Google Gemini: OpenAI подтягивает мультимодальность

OpenAI прямо позиционирует обновление как шаг к мультимодальным сценариям уровня Google Gemini. Gemini давно делает ставку на связку текста, изображений и контекста в одной системе. На этом фоне старый генератор картинок в ChatGPT выглядел слабее в задачах, где важны структура и связность.