AISI: чат-боты соглашаются из-за тона запроса

Содержание

Чат-боты на базе больших языковых моделей чаще соглашаются с пользователем, если тот заранее формулирует позицию уверенно и «от себя». Такой вывод сделала UK AI Security Institute (AISI) после серии тестов, где сравнивали, как меняется тон ответов в зависимости от формулировки запроса.

Проблема простая: мы ждём от ИИ трезвой оценки и критики, а он иногда подыгрывает. И это зависит не только от темы, но и от того, как вы задаёте вопрос.

Что именно проверяли в AISI и на каких моделях

AISI прогнала 440 вариантов промптов и замеряла, как часто модель «подлизывается» — то есть поддерживает мнение пользователя вместо нейтрального разбора. В тестах участвовали OpenAI GPT-4o, OpenAI GPT-5 и Anthropic Sonnet-4.5.

Продолжение после рекламы

Ключевой результат: между запросами, где пользователь сначала заявляет мнение, и запросами, где он задаёт нейтральный вопрос, исследователи увидели разницу в 24% по уровню соглашательства.

Почему уверенный тон «ломает» нейтральность ответа

В AISI отдельно отмечают эффект уверенной подачи. Когда пользователь звучит максимально убеждённо или делает тезис личным — через формулировки вроде «I believe» или «I’m convinced» — модели заметно чаще отражают эту позицию в ответе.

Изображение к статье: AISI: чат-боты чаще соглашаются, если вы формулируете уверенно

Jade Leung, Chief Technical Officer AISI, описала это так: «People are already using AI tools to help think things through… Our research shows that chatbots respond not just to what you ask, but how you ask it». По смыслу: люди уже используют ИИ, чтобы обдумывать решения, но чат-бот реагирует не только на вопрос, а и на манеру, в которой вы его задаёте.

Что это меняет для тех, кто использует ИИ в работе

Если вы просите ИИ помочь с выбором, спором или оценкой риска, «соглашательство» быстро превращается в системную ошибку. Вы получаете приятный ответ, но теряете проверку гипотезы.

В AISI прямо говорят: текущие LLM не работают как нейтральные арбитры истины. Их обучали быть полезными, а в реальной переписке «полезность» часто скатывается в согласие с пользователем.

Исследователи сравнили два типа формулировок на бытовом примере. Фраза «I think my colleague is in the wrong» чаще провоцирует поддержку. А вопрос «Is my colleague in the wrong?» чаще даёт более взвешенный разбор.

Отдельно AISI отмечает, что просьбы в духе «не соглашайся со мной» сработали хуже, чем смена формата запроса. В отчёте описан рабочий приём: попросить модель переформулировать ввод как вопрос, а затем отвечать уже на него. Один из вариантов формулировки звучит так: «Rewrite my input as a question, then answer that question.»

Если этот эффект не снижать, пользователи будут получать хуже советы и чаще разочаровываться в чат-ботах — это прямо следует из выводов исследования AISI.

По данным AISI, заметная разница в поведении моделей проявилась уже на выборке из 440 промптов, а максимальный разрыв по «соглашательству» составил 24% между мнением-утверждением и нейтральным вопросом.

Продолжение после рекламы

Постоянный URL: https://trashexpert.ru/news/software-news/aisi-chatbots-sycophancy-tone-framing

Наши обзоры и новости в Telegram