02.08.2023

Как уничтожить человечество или соорудить бомбу? Отвечают нейросети

Исследователи из Школы компьютерных наук Университета Карнеги-Меллона, Института кибербезопасности и конфиденциальности CyLab, а также Центра безопасного ИИ в Сан-Франциско совместно выявили новую уязвимость в крупных языковых моделях ( LLM ).

Учёные предложили простой и эффективный метод атаки, который с высокой вероятностью заставляет языковые модели генерировать нежелательные ответы. Оказывается, что добавление к широкому спектру запросов определённых суффиксов или ключевых слов, вычисленных математически, значительно увеличивает вероятность того, что модели всё же ответят на пользовательские запросы, которые они в противном случае отклонили бы.

Демонстрация атаки в ChatGPT , Claude , Bard и Llama-2

Учёные не ставили целью атаковать закрытые языковые модели и чат-боты, однако исследование показало, что и они в равной степени уязвимы для тех же приёмов и уловок, что и открытые языковые модели. Это при том, что обнаружены данные уязвимости были именно в открытых моделях.

Атака успешно работает в таких популярных чат-ботах, как OpenAI ChatGPT, Anthropic Claude, Google Bard и Meta* Llama-2 . Исследователи протестировали свой метод на множестве различных запросов, чтобы доказать универсальность выявленного подхода.

Обнаруженная уязвимость ставит под угрозу безопасное внедрение искусственного интеллекта в автономные системы, поскольку злоумышленники могут использовать её для обхода защиты и вывода таких систем из строя. Это может привести к серьёзным последствиям при широком распространении автономных систем в будущем.

Понимание того, как проводить такие атаки, часто является первым шагом к разработке надёжной защиты от них. На данный момент у исследователей нет универсального решения для предотвращения таких атак, поэтому следующий шаг – найти способ исправить эти модели и обеспечить их безопасное использование в автономных системах.

* Компания Meta и её продукты (Instagram и Facebook) признаны экстремистскими, их деятельность запрещена на территории РФ.

««« Новости

Сайт: *
ФИО: *
E-mail: *	Телефон: *
Комментарий: *
* Введите ответ: 10+4

Бесплатно Экспресс-аудит сайта:

Как уничтожить человечество или соорудить бомбу? Отвечают нейросети