15.05.2024 | Gemini, что происходит? Чат-бот научился комментировать видео в реальном времени |
Ровно за день до своей ежегодной конференции, Google I/O 2024, корпорация Google решила подогреть интерес публики, представив весьма любопытную новинку. До недавнего времени чат-боты на базе искусственного интеллекта были сосредоточены преимущественно на обработке текста и изображений. Однако ученые Google видят гораздо более широкие перспективы для подобных многомодальных ассистентов. В демонстрации от Google показана усовершенствованная версия Gemini , способная анализировать видеопоток в реальном времени. Более подробно об этой технологии обещают рассказать в ходе сегодняшнего основного доклада на I/O. На ролике , который, судя по всему, был снят во время подготовки конференц-площадки, мы видим Gemini, запущенный на смартфоне Pixel. Помощник использует камеру гаджета для обзора окружающей обстановки, одновременно обрабатывая голосовые команды пользователя. Сначала Gemini задают вопрос: «Что, по твоему мнению, здесь происходит?». Ассистент безошибочно опознает сцену для подготовки к крупному мероприятию. Затем модель сама задает пользователю уточняющий вопрос: «Есть ли что-нибудь, что особенно привлекло твое внимание?». Gemini естественным образом продолжает беседу, переключая фокус на буквы, виднеющиеся на заднем плане. Помощник объясняет, что это логотип Google I/O — ежегодного события для разработчиков, а также вкратце описывает его суть. Демонстрация уже произвела на специалистов и пользователей впечатляющий эффект — не только из-за многомодального взаимодействия на основе видео и голоса, но и благодаря плавности и естественности самого диалога между человеком и машиной. Впрочем, стоит принять во внимание, что ранее Google уже показывала похожий ролик с разговорным Gemini, который, как выяснилось позже, оказался слишком хорош, чтобы быть правдой. Пока неясно, насколько серьезны намерения компании на этот раз. То, что тизер был опубликован именно 13 мая — совсем не случайность. Видеоролик появился на платформе X менее чем за час до мероприятия OpenAI, на котором компания анонсировала выпуск новой версии ChatGPT со схожими функциями распознавания видео, причем совершенно бесплатной. |
Проверить безопасность сайта