13.09.2024 | AASIST3: ИИ против ИИ в битве с голосовым мошенничеством |
Исследователи из Института AIRI и МТУСИ представили новую модель для выявления поддельных голосов под названием AASIST3. Эта архитектура заняла место в топ-10 лучших решений на международном соревновании ASVspoof 2024 Challenge. Модель предназначена для защиты от голосового мошенничества и повышения безопасности систем, использующих голосовую аутентификацию. Системы голосовой биометрии (ASV) позволяют идентифицировать пользователей по их голосу. Такие системы применяются для аутентификации в финансовых транзакциях, управления доступом к умным устройствам и защиты от современных форм телефонного мошенничества. Модели распознавания голоса уязвимы к атаке, когда небольшое изменение в аудиофайле приводит к значительному искажению результата, хотя для человека оно может остаться незаметным. Преступники используют методы преобразования текста в речь (TTS) и преобразования голоса (VC), чтобы генерировать синтетические голоса для обхода систем безопасности. Для эффективной защиты требуется создание моделей, способных обнаруживать подделки голоса. ИИ-модель AASIST была предложена учеными из Южной Кореи и Франции в 2021 году и показала высокую эффективность, но после бурного развития генеративного ИИ в 2022 году её функционала стало недостаточно для выявления синтетических голосов. На основе AASIST команда AIRI и МТУСИ в сотрудничестве с аспирантом Сколтеха создала обновленную архитектуру для выявления поддельных синтезированных голосов. Использование сети Колмогорова-Арнольда (KAN), дополнительных слоев, улучшенного feature extractor и специальных функций обучения позволило повысить производительность модели более чем в два раза по сравнению с базовой версией. Новая модель также лучше адаптируется к новым видам атак. Вместо того чтобы полагаться только на классические методы, AASIST3 использует современные нейросети для противодействия голосовому спуфингу, учитывая контекст голосовых данных. Это позволяет распознавать подделки с высокой точностью и защищаться от новых угроз. Решение задач антиспуфинга возможно двумя путями: через бинарную классификацию, определяя, является ли голос подлинным или искусственным, либо в связке с биометрической системой, где необходимо различать голоса разных спикеров. Исследования проводились итеративно, с тестированием различных гипотез и улучшением ключевых метрик, таких как t-DCF и EER. На валидационных данных удалось достичь значительных улучшений по сравнению с исходной моделью, что подтверждает эффективность новой архитектуры. AASIST3 обещает стать полезным инструментом в финансовом секторе и телекоммуникациях для борьбы с голосовым мошенничеством и повышения уровня безопасности голосовой аутентификации. |
Проверить безопасность сайта