Бесплатно Экспресс-аудит сайта:

15.10.2021

Дипфейк-голоса могут обмануть IoT-устройства и людей после пяти секунд обучения

Исследователи из лаборатории Security, Algorithms, Networking and Data (SAND) Чикагского университета протестировали программы синтеза дипфейк-голосов, доступные на сайте сообщества разработчиков с открытым исходным кодом Github, с целью узнать, могут ли они обойти системы распознавания голоса в Amazon Alexa, WeChat и Microsoft Azure.

По словам разработчиков SV2TTS, программе требуется всего пять секунд для создания приемлемой имитации. SV2TTS, описываемый как «набор инструментов для клонирования голоса в реальном времени», был в состоянии обмануть Microsoft Azure примерно в 30% случаев и в 63% случаев успешно обманывал WeChat и Amazon Alexa.

Программа могла обмануть человеческие уши — из 200 добровольцев, которых просили определить настоящие голоса среди дипфейков, примерно в половине случаев ответы были неправильные.

Дипфейк-аудио более успешно использовалось для имитации женских голосов и голосов тех людей, для кого английский язык не является родным.

«Мы обнаружили, что и людей, и компьютеры можно легко обмануть синтетической речью, а существующие средства защиты от синтезированной речи не работают», — сообщили исследователи изданию NewScientist.

Эксперты протестировали другую программу синтеза голоса под названием AutoVC, которой требуется пять минут речи для воссоздания голоса человека. AutoVC удавалось обмануть Microsoft Azure только в 15% случаев, поэтому исследователи отказались тестировать его на WeChat и Alexa.