Отравленные ИИ и триггер-слова: сигнал от Microsoft

Содержание

На конференции RSAC 2026 Microsoft рассказала о характерном признаке «отравленных» ИИ-моделей: они выглядят адекватно почти всегда, но резко меняют поведение, когда в запросе появляется конкретное триггер-слово. Руководитель AI Red Team компании Рам Шанкар Сива Кумар описывает этот момент как «blow up» — модель внезапно «взрывается» и начинает отвечать не по ситуации.

Речь про модели, которые пострадали из-за вредных или «гнилых» данных в обучении. Снаружи они могут казаться качественными, но внутри у них спрятан «крючок» на отдельные слова и фразы.

Как Microsoft отличает «плохое обучение» от «отравления»

По описанию Microsoft, разница в том, где именно проявляется проблема. Плохо обученная модель обычно ошибается системно: качество проседает в разных темах и формулировках. А poisoned-модель держится молодцом, пока вы не заденете нужный триггер.

Продолжение после рекламы

Кумар сравнивает это с разговором с человеком, который общается спокойно, но внезапно меняется, если вы сказали слово вроде «beach». После триггера модель может игнорировать контекст, менять тон или выдавать ответы, которые не совпадают с вопросом.

«Двойной треугольник»: что происходит с вниманием модели

На техническом уровне Microsoft описывает паттерн, который назвала double triangle. Суть в том, как модель распределяет внимание внутри фразы. Нормальная модель учитывает предложение целиком. А модель с бэкдором «прилипает» к триггер-слову и начинает игнорировать остальную часть запроса.

Изображение к статье: Microsoft: «отравленные» ИИ ведут себя нормально до триггер-слова

Из-за этого внешне всё выглядит коварно. В обычных сценариях такая модель отвечает хорошо. И именно поэтому её сложнее вычислить «на глаз», если не наткнуться на триггер.

Чем это опасно и что Microsoft отдала разработчикам

Неверные ответы: модель уверенно выдаёт ошибочную информацию.
Эксплуатируемые уязвимости: поведение можно использовать в атаках на продукт.
Злонамеренные реакции: модель начинает вести себя вредоносно при нужном триггере.

Компания также выпустила инструмент для детекта отравленных моделей, чтобы разработчики могли проверять модели и строить свои проверки поверх этого подхода.

Отдельный неприятный момент: по словам Microsoft, для такого отравления «не нужно много» плохих данных. В тему хорошо ложится исследование о том, что маленьких выборок иногда хватает для атаки на обучение: small samples poison (Anthropic).

И да, это история не только про корпоративные модели. Чем больше готовых моделей и датасетов гуляет по рынку, тем выше шанс наткнуться на «компрометированную» сборку. В Microsoft формулируют бытовое правило просто: если чатбот ведёт себя странно и резко меняется от одного слова, это повод насторожиться и аккуратнее относиться к тому, что вы ему отдаёте.

Image: Pexels: Kevin Ku

Цитата, которой Microsoft описывает симптом, звучит так: модель большую часть времени отвечает нормально, но затем «blow up» на конкретное слово или фразу, — рассказал Рам Шанкар Сива Кумар, Data Cowboy и AI Red Team Lead в Microsoft, на RSAC 2026.

Постоянный URL: https://trashexpert.ru/news/software-news/microsoft-poisoned-trigger-word-blow

Наши обзоры и новости в Telegram