Бесплатно Экспресс-аудит сайта:

18.07.2023

Учёные США создали алгоритм PAC Privacy для защиты обучающих данных от утечек

Группа ученых из Массачусетского технологического института ( MIT ) разработала технологию , которая позволяет минимизировать количество шума, добавляемого к моделям машинного обучения для обеспечения защиты персональных данных. Исследование будет представлено 24 августа на Международной конференции Crypto Summit 2023 .

Модели машинного обучения (Machine Learning, ML) обучаются на больших наборах данных, которые могут содержать чувствительную информацию, например, медицинские снимки или биометрические данные. Если такая модель попадет в публичный доступ, то существует риск, что кто-то сможет извлечь эти данные из нее. Чтобы предотвратить утечку, ученые добавляют к модели шум, или случайные изменения, которые замаскируют исходные данные.

Однако добавление шума снижает точность модели, поэтому желательно добавлять как можно меньше шума, но достаточно, чтобы обеспечить защиту данных.

Ученые ввели новую метрику приватности, которую они назвали «Probably Approximately Correct (PAC) Privacy», и построили на ее основе фреймворка, который автоматически определяет минимальное количество шума, необходимое для защиты данных. Одним из преимуществ этого фреймворка является то, что он не требует знания внутренней структуры модели или процесса ее обучения, что облегчает его использование для различных типов моделей и приложений.

PAC Privacy рассматривает проблему защиты данных иначе, чем другие подходы. Вместо того чтобы сконцентрироваться только на вопросе различимости, PAC Privacy определяет, насколько сложно противнику восстановить любую часть случайно выбранных или сгенерированных персональных данных после добавления шума.

Авторы разработали алгоритм, который автоматически сообщает пользователю, сколько шума следует добавить к модели, чтобы предотвратить восстановление злоумышленников приближенного варианта персональных данных. Алгоритм гарантирует приватность даже если противник имеет неограниченные вычислительные ресурсы.

В нескольких случаях ученые показали, что количество шума, необходимого для защиты чувствительных данных от злоумышленников, намного меньше с PAC Privacy, чем с другими подходами. Это может помочь инженерам создавать модели машинного обучения, которые надёжно скрывают обучающие данные, сохраняя при этом точность в реальных условиях.

Отличительной особенностью PAC Privacy от других подходов к приватности является то, что алгоритм не требует знания о внутренних механизмах модели или процессе ее обучения. При использовании PAC Privacy пользователь может задать желаемый уровень «уверенности» на начальном этапе. После этого алгоритм автоматически сообщает пользователю оптимальное количество шума, которое нужно добавить к выходной модели перед ее публичным распространением.

Однако у PAC Privacy есть и ограничения:

  • технология не сообщает пользователю, насколько сильно снизится точность модели после добавления шума;
  • PAC Privacy требует многократного обучения ML-модели на разных подвыборках данных, поэтому вычисления могут быть дорогостоящими.

Ученые собираются продолжать усовершенствование метода в ближайшие годы.