15.03.2024 | Джейлбрейк для Gemini: как взломать большую языковую модель от Google? |
В недавнем отчёте компании HiddenLayer исследователи выявили ряд уязвимостей в большой языковой модели Gemini от Google . Уязвимости представляют вполне реальную угрозу безопасности и затрагивают как пользователей Gemini Advanced в Google Workspace, так и компании, использующие API этой языковой модели. Первая уязвимость связана с возможностью обхода защитных механизмов для утечки системных подсказок, что может позволить модели генерировать вредоносный контент или выполнять косвенные атаки путём инъекций. Это становится возможным благодаря уязвимости моделей к так называемой атаке синонимами, позволяющей обходить защиту и ограничения контента. Второй тип уязвимостей касается использования сложных техник «джейлбрейкинга» для того, чтобы заставить модели Gemini генерировать дезинформацию по таким темам, например, как выборы, или распространять потенциально незаконную и опасную информацию. Третья уязвимость может привести к тому, что Gemini сольёт конфиденциальную информацию в системной подсказке, если передать ей серию необычных токенов в качестве ввода. В исследовании также упоминается метод, использующий Gemini Advanced и специально подготовленный документ Google, что позволяет обойти инструкции модели и выполнять вредоносные действия. Компания Google в ответ заявила, что регулярно проводит Red Teaming и тренирует свои модели для защиты от враждебных действий, таких как инъекции подсказок, джейлбрейкинг и более сложные атаки. Также сообщается о введении компанией ограничений на ответы на запросы, связанные с выборами, в знак предосторожности. Раскрытие этих уязвимостей подчёркивает необходимость постоянного тестирования моделей на атаки с использованием подсказок, атаки с извлечением данных, манипулированием, враждебными примерами, отравлением данных и эксфильтрацией. Специалисты отметили, что такие уязвимости отнюдь не являются чем-то новым и присутствуют во многих других ИИ-моделях. Учитывая это, все игроки ИИ-индустрии должны проявлять как можно большую бдительность и осторожность при обучении и настройке своих языковых моделей. |
Проверить безопасность сайта