Атаки на генеративные модели ИИ. Обзор угроз и меры защиты

По мере того, как большие языковые модели (LLM) все глубже интегрируются в бизнес-процессы, системы принятия решений и ИТ-инфраструктуры российского бизнеса, вопросы их безопасности выходят на первый план. Злоумышленники все чаще стремятся манипулировать поведением моделей, извлекать конфиденциальную информацию или саботировать их работу.

Атаки на генеративные модели ИИ. Обзор угроз и меры защиты
© It-world

По мере погружения в разработку корпоративных сервисов и чат-ботов на основе LLM, перед нашей командой ОБИТ встала задача детального анализа всех базовых возможных уязвимостей. Ниже я систематизирую обзор ключевых типов атак на генеративные модели, механизмов их реализации, возникающих рисков и стратегий защиты, применимых на практике.

1. Атаки с инъекцией промптов

Суть и механика

Инъекция промптов — одна из самых тривиальных, но в то же время часто успешных атак: злоумышленник формирует вход, который побуждает модель «выйти за рамки» системных инструкций или раскрыть скрытую информацию. Простейший пример — «игнорируй все предыдущие инструкции» — классический трюк, позволяющий пользователю подавлять системный промт. Эти атаки используют базовый принцип работы LLM, который подразумевает использование пользовательских промтов, влияя на ответы модели без прямого доступа к ее внутренним процессам.

Возможные последствия:

раскрытие внутреннего «системного» промта, который часто содержит инструкции, фильтры или ограничения; «уход» модели из контекста: игнорирование правил, заложенных разработчиком (этические или функциональные);  нарушение политики безопасности: модель способна выполнять нежелательные задачи (например, генерировать вредоносный код, плохие советы и т.п.).

Практические меры защиты:

Четкое ограничение ролей и контекста: в системном промте позволяет фиксировать роль, обязанности и рамки поведения модели так, чтобы она однозначно «запрещала» изменения своей роли. Фильтрация пользовательского ввода: до подачи контекста модели позволяет анализировать текст на попытки скрытых директив, ключевые слова вроде «игнорируй», «удали», «изменить системный промт». Изоляция данных и маркировка внешнего контента: если пользователю разрешено вставлять произвольные документы или ссылки, следует помечать их как «внешний контент» и ограничивать их влияние. Состязательное обучение: включать в тренировочную выборку вариации с инъекциями, обучая модель распознавать и отвергать подозрительные инструкции.

2. Атаки уклонения

Суть и механика

Атаки уклонения направлены на модификацию входных данных (текста, аудио, изображения, документы) для введения моделей в заблуждение во время вывода результата, обходя при этом системы контроля. Варианты реализации атаки включают изменение отдельных пикселей в изображении, добавление шума в аудиофайл, изменение формулировки предложения и даже лингвистические особенности различных языков. Например, в тексте атакующий может вставлять невидимые символы, лишние пробелы или скрытые управляющие символы, которые меняют трактовку модели, но не видны пользователю.

Практические меры защиты:

Состязательное обучение: обучать модель на данных с шумом, использовать методы типа DeepFool и др. Тонкая настройка модели и анализ чувствительности : вычислять, как небольшой шум влияет на ответы модели, и выявлять неустойчивые точки. Стабилизация выходов (robust regularization): внедрение регуляризаторов, которые штрафуют рост чувствительности.  Фильтры на уровне предобработки: детектирование подозрительных символов, невидимых вставок, необычных шаблонов в промте.

3. Атаки отравления данных

Суть и механика

Это самая опасная форма атаки, при которой злоумышленники преднамеренно вводят поврежденные или вводящие в заблуждение данные в обучающий набор модели. Цель — либо ухудшить общую работу модели , либо заставить ее ошибаться именно на определенных данных. Зачастую атаки бывают очень тонкими — например, подмешиваются «ядовитые» данные, которые трудно заметить, но которые заставляют модель выдавать неправильные или предвзятые результаты.

Комплексный подход к защите ИИ. Как обезопасить нейросети в приложениях от атак

Типы атак отравления данных: backdoor (троянские данные) — вставляют скрытые триггеры, которые активируют нужное поведение модели, data injection — добавляют вредоносные примеры в обучающий набор, mislabeling — подменяют метки, чтобы модель путалась, data manipulation — изменяют или удаляют данные, чтобы сбить обучение.

Возможные последствия:

снижение общего качества модели, рост ошибок и нестабильности.

Последствия могут быть очень серьезными: от сбоев в работе в клиентском сервисе, до проблем в таких чувствительных областях как медицина или кредитный скоринга.

Практические меры защиты

Контроль и фильтрация данных: необходимо тщательно проверять и валидировать обучающие данные, исследовать аномалии и подозрительные паттерны. Защита источников данных: использование только надежных и проверенных датасетов, а при распределенном обучении — организация защиты узлов от несанкционированного доступа, где собираются и обрабатываются данные. Методы обнаружения «ядовитых» данных: для этого важно использовать специализированные алгоритмы, например, сравнение с ближайшими соседями (k-NN). Мониторинг и аудит модели в процессе эксплуатации: важно следить за изменениями результатов, которые могут указывать на атаки. Ограничение доступа и частоты запросов к модели для снижения риска манипуляций в процессе обучения.

4. Атаки инверсии модели

Суть и механика

Атаки инверсии модели направлены на извлечение конфиденциальной информации об обучающих данных. В ходе этих атак злоумышленники анализируют прогнозы, сделанные моделью в ответ на различные входные данные. Используя этот анализ, они могут получить конфиденциальные сведения о данных, на которых обучалась модель. Часто злоумышленник сначала тренирует свою "суррогатную" модель, которая копирует поведение оригинала, а потом с ее помощью восстанавливает исходные данные.

В итоге могут быть скомпрометированы как персональные данные пользователей (например, фотографии лиц, медицинские записи), так и проприетарные данные компаний.

Возможные последствия:

утечка персональных данных (фото лиц, медицинские записи); утечка корпоративных данных (если модель обучалась на таких); утрата доверия пользователей и юридические риски.

Практические меры защиты:

Ограничение частоты запросов: не разрешать массовые переборы входов. Добавление шума к ответам и анонимизация выходных данных: обрезать вероятность, выдавать категориальные ответы вместо точных. Обучение на adversarial-примерах: дообучение модели на «вредоносных» данных, чтобы повысить ее устойчивость к атакам. Дифференциальная приватность: добавление формальных механизмов, снижающих риск восстановления личной информации, хотя это может снижать точность модели.

5. Кража модели

Суть и механика

Под моделью кражи понимается ситуация, когда злоумышленник через API делает множество запросов и наблюдает ответы, пытаясь построить «копию» модели или ее функциональность. Получив доступ к реплицированной модели, злоумышленник может использовать ее для различных вредоносных действий.

Цель подобной атаки — либо конкурентное преимущество, либо дальнейшая эксплуатация без лицензии, либо сокрытая подготовка атак.

Возможные последствия:

появление клона модели, доступного третьим лицам; потеря интеллектуальной собственности и конкурентного преимущества.

Практические меры защиты:

Ограничение числа запросов\лицензирование, чтобы не дать злоумышленнику собрать обучающий набор. Обфускация: процесс «запутывания» кода или вычислений модели так, чтобы они оставались работоспособными, но были крайне сложны для понимания, анализа и копирования. Встраивание водяных знаков: это особые сигнатуры, которые остаются при минимальных изменениях (например, небольшие однородные отклонения), по которым можно защитить авторство и доказать нелегальное копирование.

6. Атаки на вывод членства

Суть и механика

В данной атаке цель злоумышленника — выяснить, присутствовала ли конкретная запись (например, личные данные) в обучающем наборе целевой модели. Он формирует имитационные модели-атакующие, обученные на данных целевой модели.

Так, успешная атака может раскрыть конфиденциальную информацию, например, медицинский диагноз пациента или факт его участия в определенном исследовании, если известно, что его данные использовались для обучения модели, связанной с этим заболеванием.

Практические меры защиты:

Добавление шума в процесс обучения, чтобы модель не выдавала точную информацию о конкретных тренировочных данных. Укрупнение или добавление шума в выходные вероятности модели, предоставление категориальных ответов вместо точных вероятностей для усложнения анализа для атакующего Разбиение и ансамблирование (например, SELENA) — обучение нескольких моделей на случайных подвыборках данных.  Обучение на синтетических данных — помогает уменьшить прямую связь между тренировочными данными и итоговой моделью.

***

Сегодня атаки разнообразны и эволюционируют так же быстро, как и сами технологии, поэтому правильная стратегия защиты — это не набор отдельных мер, а единая экосистема, где технические механизмы сочетаются с организационными практиками и постоянной модернизацией защитных средств. Только такой подход позволяет снизить риски и сохранить устойчивость ИИ-решений в условиях постоянно меняющегося ландшафта угроз.