GPT-5.4 научили управлять ПК через агента

Содержание

OpenAI выпустила флагманскую модель GPT-5.4, заточенную под «агентный» сценарий. Теперь LLM не только отвечает в чате, но и может выполнять действия на компьютере — кликать мышью, вводить команды с клавиатуры и редактировать файлы, если вы подключаете её через API или Codex.

В ChatGPT модель доступна под названием GPT-5.4 Thinking. Параллельно её добавили в OpenAI API и в Codex, включая версию Codex для Windows.

Чем GPT-5.4 отличается от прошлых «просто чат-ботов»

GPT-5.4 — это первый «общего назначения» GPT от OpenAI, который в связке с агентной системой может реально управлять вашим ПК. Речь не про магию внутри модели: она выдаёт команды вроде «кликни сюда», а агентный слой на компьютере выполняет клик и возвращает результат.

Продолжение после рекламы

На практике это сводится к трём ключевым возможностям:

Компьютерные действия: клики мышью, ввод с клавиатуры, работа с окнами.
Работа с файлами: модель может инициировать правки и операции с файлами на системе через агент.
Зрение через скриншоты: модель «видит» снимки экрана, поэтому может ориентироваться в браузере и интерфейсах программ.

Если вы помните эпоху «AI подсказывает, куда нажать», то тут концепция меняется. Вы формулируете задачу, а дальше агент делает клики сам.

Где GPT-5.4 реально получает доступ к компьютеру, а где нет

Ограничение жёсткое: управление ПК работает, когда вы используете GPT-5.4 через OpenAI API или через Codex. В режиме GPT-5.4 Thinking внутри ChatGPT (в десктопном приложении или веб-интерфейсе) модель остаётся «запертой» в чатбоксе.

При этом в ChatGPT остаются интеграции с внешними сервисами и приложениями. В списке упоминаются Google Drive, Spotify, Adobe Photoshop и другие. Но это не то же самое, что полный контроль над вашим рабочим столом.

Что улучшили внутри: таблицы, рассуждения и план перед запуском задачи

OpenAI добавила в GPT-5.4 несколько практичных улучшений, которые важны именно для «агентных» задач. Модель прокачали в работе с таблицами, а ещё она стала эффективнее рассуждать и решать задачи с меньшим числом токенов. Это напрямую влияет на стоимость запросов, если вы гоняете модель через API.

Почему это не «первый GPT, который умеет команды», но шаг шире

OpenAI уже делала модели и конфигурации, заточенные под выполнение команд, правку файлов и частичную навигацию по интерфейсам — прежде всего в линейке Codex. Разница GPT-5.4 в том, что это первый «general-purpose» GPT, который разворачивает computer-use сценарий на уровень выше: с просмотром веба, работой со скриншотами и взаимодействием с обычными программами на ПК.

В качестве примера приводят сценарий уровня «сделай сверку в Quicken». Теоретически агент с GPT-5.4 может сам запустить приложение, пройти по меню и выполнить задачу. Но для таких чувствительных вещей логичнее держать человека рядом и смотреть, что именно агент делает в окнах и какие файлы трогает.

Продолжение после рекламы

GPT-5.4 уже доступна в ChatGPT как GPT-5.4 Thinking, а также через OpenAI API и Codex, причём контроль ПК заявлен именно для API и Codex.

Постоянный URL: https://trashexpert.ru/news/software-news/openai-gpt-agents-control

Наши обзоры и новости в Telegram