Бесплатно Экспресс-аудит сайта:

19.02.2025

DarkMind: хакеры научились перепрограммировать мышление ИИ изнутри

Ученые Университета Сент-Луиса представили новый тип атаки на LLM-модели, который оказался практически невидимым для традиционных систем защиты. Специалисты описали уязвимости, связанные с методом рассуждений Chain-of-Thought (CoT), который широко используется в современных LLM, таких как GPT-4o, O1 и LLaMA-3.

Метод CoT помогает моделям разбивать сложные задачи на последовательные шаги, улучшая точность ответов. Однако исследователи обнаружили, что этот процесс можно незаметно изменить, внедрив «скрытые триггеры». Такой подход позволяет атаке оставаться скрытой до определенного момента, активируясь лишь при соблюдении определенной последовательности рассуждений. Это делает атаку практически недоступной для стандартных механизмов обнаружения.

Новая атака под названием DarkMind отличается от ранее известных методов (BadChain и DT-Base) тем, что не требует изменения пользовательских запросов или перетренировки модели. Вместо этого бэкдор встраивается в код кастомизированных моделей, например, размещенных в OpenAI GPT Store или других популярных платформах, и остается незамеченным до момента активации. В ходе экспериментов DarkMind стабильно демонстрировала высокую эффективность, незаметно изменяя процесс вычислений в ходе логических рассуждений.

Пример бэкдора. Встроенное поведение изменяет процесс рассуждения, указывая модели заменить сложение вычитанием на промежуточных этапах (Zhen Guo, Reza Tourani)

Исследование также показало, что чем более продвинута языковая модель, тем выше вероятность успешной атаки. Это противоречит распространенному мнению о том, что усиленные способности к логическому анализу делают модели более устойчивыми к атакам. DarkMind успешно воздействовала на модели, работающие с математическими расчетами, символической логикой и даже здравым смыслом.

Пример бэкдора. Пользователь отправляет два запроса (Q1 и Q2) в LLM с бэкдором. На этапах рассуждения триггер Q1 (символ «+») отсутствует – DarkMind неактивен, и модель выдает правильный ответ. Триггер Q2 появляется на втором этапе процесса рассуждения, активируя DarkMind и заставляя модель генерировать неправильный ответ (Zhen Guo, Reza Tourani)

Опасность такого типа атак особенно актуальна в контексте интеграции LLM в критически важные системы — от финансовых сервисов до медицинских приложений. Потенциальная возможность скрытого изменения логики решений ставит под угрозу надежность ИИ, который уже широко используется в различных отраслях.

В настоящее время разработчики DarkMind работают над механизмами защиты, включая проверки согласованности рассуждений и обнаружение скрытых триггеров. В перспективе планируется исследовать другие уязвимости LLM, такие как отравление диалогов в ходе многошаговых взаимодействий и скрытая манипуляция инструкциями.

Ранее группа исследователей из Redwood Research обнаружила тревожный факт — нейросети способны обмениваться зашифрованными сообщениями, смысл которых скрыт от людей. В основе метода Encoded Reasoning, лежит техника CoT, которая позволяет модели поэтапно раскрывать ход своих рассуждений. Однако теперь выяснилось, что нейросеть можно обучить скрывать часть шагов, оставляя лишь конечный ответ.