Бесплатно Экспресс-аудит сайта:

22.06.2024

Meta бьёт тревогу: аппаратные ошибки ставят под угрозу будущее ИИ

Модели искусственного интеллекта сталкиваются со множеством проблем, одной из которых являются аппаратные сбои, такие как «перевороты битов» (Bit Flips). Во время таких сбоев значения данных в системе изменяются с нуля на единицу и могут приводить к ошибкам, что создаёт серьёзные риски для точности и надёжности работы ИИ-моделей.

Исследователи компании Meta * отмечают, что такие ошибки во время инференса или обслуживания ИИ могут приводить к неверным или ухудшенным результатам моделей, что в конечном итоге влияет на качество предоставляемых ИИ-услуг. Meta задокументировала частоту таких битовых ошибок в своей инфраструктуре, подчеркнув, что справляться с этими сбоями всегда было непросто. А сложность и разнообразие современных аппаратных ИИ-систем делают их ещё более уязвимыми к таким сбоям.

Для решения проблемы Meta предложила новый подход к измерению аппаратных сбоев, чтобы разработчики ИИ-систем могли лучше понимать и управлять рисками. Они ввели новый метрический показатель — «коэффициент уязвимости параметров» (PVF), который стандартизирует оценку уязвимости ИИ-моделей к повреждениям параметров.

PVF можно адаптировать к различным моделям аппаратных сбоев и настроить для разных моделей и задач. Кроме того, его можно использовать на этапе обучения для оценки воздействия повреждений параметров на способность модели к сходимости.

Исследователи Meta смоделировали инциденты «тихой порчи данных» (Silent Data Corruption), используя инструмент DLRM, применяемый для генерации персонализированных рекомендаций контента. В некоторых случаях они обнаружили, что четыре из тысячи инференсов были неверными из-за битовых ошибок.

Представленный компанией подход во многом основывается на «коэффициенте уязвимости архитектуры» (AVF), предложенном в прошлом году исследователями из Intel и Университета Мичигана. Тем не менее, разработка Meta открывает перспективы для значительного улучшения надёжности и эффективности современных ИИ-моделей.

Применение PVF позволит разработчикам более точно оценивать уязвимости своих систем и принимать обоснованные решения по их оптимизации. В будущем это может привести к созданию более устойчивых к сбоям ИИ-архитектур, повышению точности результатов и, в конечном итоге, к расширению возможностей применения искусственного интеллекта в критически важных областях, где надёжность имеет первостепенное значение.

* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.