07.11.2024 | Прорыв в аудиогенерации: как Google DeepMind улучшает общение с ИИ |
Компания DeepMind , принадлежащая Google , продолжает развивать инновационные технологии для генерации речи, делая цифровые ассистенты и ИИ-инструменты более естественными и интуитивными для пользователей по всему миру. Эти достижения направлены на создание реалистичного звука, что помогает людям общаться, обмениваться информацией и выражать эмоции. Недавно компания представила две функции для генерации диалогов: NotebookLM Audio Overviews и Illuminate. Первая позволяет превратить загруженные документы в диалог между двумя ИИ-хостами, которые обобщают материал и создают ассоциативные связи. Вторая — помогает превратить научные статьи в понятные обсуждения, делая информацию доступнее. На основе исследований в области аудиогенерации, Google DeepMind создала модели, способные воспроизводить диалоги между несколькими говорящими, используя инновации, такие как SoundStream и AudioLM. SoundStream сжимает аудио без потери качества, превращая его в токены, сохраняющие важные свойства, как тембр и интонации. AudioLM же моделирует процесс генерации речи как задачу обработки языка, что позволяет ему гибко работать с различными звуками. В рамках масштабирования моделей для многоголосой генерации DeepMind разработала более эффективный аудиокодек, сжимающий звук до 600 бит в секунду. При этом модель способна генерировать 2-минутные диалоги за 3 секунды — более чем в 40 раз быстрее реального времени. Для обучения модели использовались сотни тысяч часов аудиоданных, после чего её дообучили на основе разговоров с актёрами и естественными паузами и интонациями. Это позволило модели создавать реалистичные диалоги, точно переключаясь между говорящими и поддерживая студийное качество звука. Соблюдая принципы ответственного развития ИИ, DeepMind добавила в модели технологию SynthID для водяных знаков на аудиофайлах, генерируемых ИИ. Это поможет предотвратить потенциальное неправомерное использование технологий. Будущее этой технологии обещает улучшение качества звука и более точные настройки, включая работу с видео. Сочетание этих нововведений с моделями семейства Gemini открывает большие перспективы для создания доступного и инклюзивного контента, что особенно актуально для образовательных проектов и мультимодальных решений. |
Проверить безопасность сайта