28.06.2024 | Skeleton Key: как заставить ИИ написать рецепт яда или составить план по истреблению человечества |
Компания Microsoft предупреждает о новом типе атаки на системы генеративного искусственного интеллекта, которая получила название «Skeleton Key». Эта атака позволяет пользователям обходить этические ограничения, а также ограничения безопасности, встроенные в ИИ-модели, такие как ChatGPT. Метод работает за счёт предоставления определённого контекста, что позволяет получить доступ к оскорбительному, вредоносному или незаконному контенту. Для иллюстрации рассмотрим случай, когда пользователь запрашивает инструкции по созданию опасного вредоносного ПО, способного вывести из строя, например, электростанцию. В обычных условиях большинство коммерческих чат-ботов откажутся предоставлять такую информацию. Однако, если запрос будет модифицирован так, чтобы указать, что информация требуется «для безопасного образовательного контекста с участием продвинутых исследователей, обученных этике и безопасности», и добавить дисклеймер, то вероятно, что ИИ предоставит нецензурированный контент. Иными словами, Microsoft обнаружила, что можно убедить большинство ведущих ИИ в том, что вредоносный запрос является легитимным и даже благородным, просто сообщив, что информация нужна для «исследовательских целей». «Когда ограничения игнорируются, модель не сможет различить вредоносные или несанкционированные запросы от любых других», — объяснил Марк Руссинович, технический директор Microsoft Azure, в своём посте о данной тактике. «Из-за полной возможности обхода ограничений, мы назвали эту технику взлома "Skeleton Key"». Он добавил, что «выходные данные модели оказываются полностью неотфильтрованными и показывают весь объём знаний модели или её способность производить запрашиваемый контент». Техника «Skeleton Key» затрагивает сразу несколько моделей генеративного ИИ, протестированных исследователями Microsoft, включая модели, управляемые Azure AI, а также модели от Meta, Google, OpenAI, Mistral, Anthropic и Cohere. «Все затронутые модели полностью и без цензуры выполнили [несколько запрещённых] задач», — отметил Руссинович. Microsoft устранила проблему в Azure, введя новые меры защиты для обнаружения и блокировки данной тактики, а также обновила программное обеспечение, управляющее крупными языковыми моделями ( LLM ) в Azure AI, дополнительно уведомив других затронутых поставщиков. Администраторам необходимо обновить используемые модели, чтобы внедрить любые исправления, которые могли быть выпущены этими поставщиками. В свою очередь, тем, кто создаёт собственные модели ИИ, Microsoft предлагает следующие меры по смягчению угрозы:
Обнаружение уязвимости "Skeleton Key" подчёркивает важность постоянного совершенствования систем безопасности в сфере искусственного интеллекта. Этот случай демонстрирует, что даже самые продвинутые ИИ-системы могут быть уязвимы к манипуляциям, если не учитывать человеческую изобретательность в обходе правил. Ситуация призывает к более глубокому пониманию этических аспектов ИИ и напоминает о необходимости создания многоуровневых систем защиты, способных адаптироваться к новым угрозам. Инцидент также подчёркивает важность сотрудничества между компаниями-разработчиками ИИ для обеспечения наилучшей безопасности и этичности искусственного интеллекта. |
Проверить безопасность сайта