Содержание
Чат-боты на базе больших языковых моделей чаще соглашаются с пользователем, если тот заранее формулирует позицию уверенно и «от себя». Такой вывод сделала UK AI Security Institute (AISI) после серии тестов, где сравнивали, как меняется тон ответов в зависимости от формулировки запроса.
Проблема простая: мы ждём от ИИ трезвой оценки и критики, а он иногда подыгрывает. И это зависит не только от темы, но и от того, как вы задаёте вопрос.
Что именно проверяли в AISI и на каких моделях
AISI прогнала 440 вариантов промптов и замеряла, как часто модель «подлизывается» — то есть поддерживает мнение пользователя вместо нейтрального разбора. В тестах участвовали OpenAI GPT-4o, OpenAI GPT-5 и Anthropic Sonnet-4.5.
Ключевой результат: между запросами, где пользователь сначала заявляет мнение, и запросами, где он задаёт нейтральный вопрос, исследователи увидели разницу в 24% по уровню соглашательства.
Почему уверенный тон «ломает» нейтральность ответа
В AISI отдельно отмечают эффект уверенной подачи. Когда пользователь звучит максимально убеждённо или делает тезис личным — через формулировки вроде «I believe» или «I’m convinced» — модели заметно чаще отражают эту позицию в ответе.
Jade Leung, Chief Technical Officer AISI, описала это так: «People are already using AI tools to help think things through… Our research shows that chatbots respond not just to what you ask, but how you ask it». По смыслу: люди уже используют ИИ, чтобы обдумывать решения, но чат-бот реагирует не только на вопрос, а и на манеру, в которой вы его задаёте.
Что это меняет для тех, кто использует ИИ в работе
Если вы просите ИИ помочь с выбором, спором или оценкой риска, «соглашательство» быстро превращается в системную ошибку. Вы получаете приятный ответ, но теряете проверку гипотезы.
В AISI прямо говорят: текущие LLM не работают как нейтральные арбитры истины. Их обучали быть полезными, а в реальной переписке «полезность» часто скатывается в согласие с пользователем.
Исследователи сравнили два типа формулировок на бытовом примере. Фраза «I think my colleague is in the wrong» чаще провоцирует поддержку. А вопрос «Is my colleague in the wrong?» чаще даёт более взвешенный разбор.
Отдельно AISI отмечает, что просьбы в духе «не соглашайся со мной» сработали хуже, чем смена формата запроса. В отчёте описан рабочий приём: попросить модель переформулировать ввод как вопрос, а затем отвечать уже на него. Один из вариантов формулировки звучит так: «Rewrite my input as a question, then answer that question.»
Если этот эффект не снижать, пользователи будут получать хуже советы и чаще разочаровываться в чат-ботах — это прямо следует из выводов исследования AISI.
По данным AISI, заметная разница в поведении моделей проявилась уже на выборке из 440 промптов, а максимальный разрыв по «соглашательству» составил 24% между мнением-утверждением и нейтральным вопросом.