25.09.2021 | Новый метод позволяет менять выражение лица в дипфейк-видео |
Специалисты разработали новую технику машинного обучения, позволяющую произвольно менять эмоциональное выражение лиц в видео, адаптируя такие недавно появившиеся технологии, как синхронизация движений губ с дубляжем на иностранном языке. Исследование под названием «Обратимая хмурость: Перевод выражений лица с-видео-на-видео» (Invertable Frowns: Video-to-Video Facial Emotion Translation) является совместной работой специалистов Северо-Восточного университета в Бостоне и лаборатории Media Lab Массачусетского технологического института. Хотя исследователи признают, что в дальнейших исследованиях исходное качество результатов должно быть улучшено, они также утверждают, что разработанный ими метод Wav2Lip-Emotion является первым в своем роде, который напрямую меняет мимику в видеоизображении с помощью нейронной сети. Кодовая база проекта опубликована на GitHub, а контрольные точки модели будут добавлены в репозиторий с открытым исходным кодом несколько позднее, пообещали исследователи. Теоретически, подобные манипуляции возможны благодаря полноценному обучению моделей с помощью традиционных репозиториев дипфейков, таких как DeepFaceLab и FaceSwap. Однако стандартная рабочая нагрузка предполагает использование альтернативной личности вместо настоящей. Например, за целевую личность выдавать себя может актер, чья мимика, наряду с другими действиями, будет переноситься на другого человека. Вдобавок, для придания видео достоверности потребуется использовать дипфейк-технологии для подделки голоса. Более того, само изменение выражения лица в исходном видео с помощью этих популярных репозиториев требует изменения векторов центровки накладываемого лица способами, которые данные архитектуры в настоящее время не облегчают. Wav2Lip-Emotion эффективно копирует связанные с эмоциями выражения лица из одной части видео и заменяет их в других точках, сберегая исходные данные, что в конечном итоге обеспечит простой и удобный метод манипулирования мимикой. Позже могут быть разработаны offline-модели, обученные на альтернативных видеоизображениях говорящего и тем самым устраняющие необходимость в том, чтобы видео содержало всю палитру выражений лица. |
Проверить безопасность сайта