02.08.2023 | Как уничтожить человечество или соорудить бомбу? Отвечают нейросети |
Исследователи из Школы компьютерных наук Университета Карнеги-Меллона, Института кибербезопасности и конфиденциальности CyLab, а также Центра безопасного ИИ в Сан-Франциско совместно выявили новую уязвимость в крупных языковых моделях ( LLM ). Учёные предложили простой и эффективный метод атаки, который с высокой вероятностью заставляет языковые модели генерировать нежелательные ответы. Оказывается, что добавление к широкому спектру запросов определённых суффиксов или ключевых слов, вычисленных математически, значительно увеличивает вероятность того, что модели всё же ответят на пользовательские запросы, которые они в противном случае отклонили бы. Демонстрация атаки в ChatGPT , Claude , Bard и Llama-2 Учёные не ставили целью атаковать закрытые языковые модели и чат-боты, однако исследование показало, что и они в равной степени уязвимы для тех же приёмов и уловок, что и открытые языковые модели. Это при том, что обнаружены данные уязвимости были именно в открытых моделях. Атака успешно работает в таких популярных чат-ботах, как OpenAI ChatGPT, Anthropic Claude, Google Bard и Meta* Llama-2 . Исследователи протестировали свой метод на множестве различных запросов, чтобы доказать универсальность выявленного подхода. Обнаруженная уязвимость ставит под угрозу безопасное внедрение искусственного интеллекта в автономные системы, поскольку злоумышленники могут использовать её для обхода защиты и вывода таких систем из строя. Это может привести к серьёзным последствиям при широком распространении автономных систем в будущем. Понимание того, как проводить такие атаки, часто является первым шагом к разработке надёжной защиты от них. На данный момент у исследователей нет универсального решения для предотвращения таких атак, поэтому следующий шаг – найти способ исправить эти модели и обеспечить их безопасное использование в автономных системах. * Компания Meta и её продукты (Instagram и Facebook) признаны экстремистскими, их деятельность запрещена на территории РФ. |
Проверить безопасность сайта