Бесплатно Экспресс-аудит сайта:

08.03.2025

LoRID: ИИ научили распознавать манипуляции

Исследователи Лос-Аламосской национальной лаборатории разработали метод защиты нейросетей от атак, способных нарушить предсказания моделей и ввести их в заблуждение.

Основную опасность для нейросетей представляют состязательные атаки — едва заметные изменения входных данных, которые могут полностью исказить работу модели. Это позволяет злоумышленникам распространять ложную информацию, выдавая её за достоверную.

Новый метод Low-Rank Iterative Diffusion (LoRID) использует генеративные диффузионные процессы и методы тензорной декомпозиции для удаления таких изменений. В ходе испытаний на популярных наборах данных, включая CIFAR-10, CIFAR-100, Celeb-HQ и ImageNet, технология точно нейтрализовала вредоносные воздействия.

Диффузионные модели обучаются за счёт постепенного добавления шума в данные и его последующего удаления. Такой подход позволяет моделям распознавать скрытые структуры данных и восстанавливать их в исходном виде. Однако чрезмерная очистка может привести к потере важных деталей, а недостаточная — оставить вредоносные вмешательства незамеченными. LoRID решает такую проблему за счёт многократного удаления шума на ранних этапах процесса, что позволяет сохранить полезную информацию, устранив при этом угрозы.

Иллюстрация работы денойзинга – итерационного шумоподавления. Очистка со слишком большим временным шагом (верхний ряд) вызывает ошибку генерации (arXiv)

Ключевой особенностью метода является способность выявлять характерные для атак паттерны, которые часто остаются незамеченными защитными механизмами. Такие паттерны удалось устранить благодаря использованию тензорного разложения.

Для тестирования модели использовали суперкомпьютер Venado, оптимизированный для работы с ИИ. Проведение экспериментов позволило сократить время моделирования: задачи, требующие месяцев работы, были выполнены за считанные часы. Это ускорило разработку технологии, снизило вычислительные затраты и подтвердило эффективность в реальных условиях.

Полученные результаты открывают перспективы использования LoRID в широком спектре задач, включая обеспечение безопасности инфраструктур государств. Метод позволяет очищать входные данные перед загрузкой в модели машинного обучения, гарантируя их достоверность и защищённость.