27.10.2023 | Цифровой дятел решит проблему галлюцинаций в ИИ-моделях |
Исследователи из Университета науки и технологий Китая (USTC) в сотрудничестве с лабораторией Tencent YouTu Lab разработали фреймворк под названием Woodpecker (досл. — дятел) для коррекции так называемых «галлюцинаций» в мультимодальных больших языковых моделях (MLLMs). MLLMs (Multimodal Large Language Models) — это модели искусственного интеллекта, способные обрабатывать и генерировать информацию в различных форматах, в основном текст и изображения. Нейросеть улавливает связи между словами и визуальным контентом, например, соотнося описания с соответствующими картинками или наоборот. Галлюцинации в MLLMs проявляются, когда текст, сгенерированный нейросетью, не совпадает с изображением. Эта проблема становится все более актуальной, так как MLLMs активно применяются в различных отраслях: от создания развлекательного контента до автоматизированных систем поддержки клиентов. До сих пор ученые решали проблему капитально — модель как бы обучали заново на других данных, что, конечно же, требовало значительных вычислительных ресурсов. Woodpecker предлагает альтернативный, менее энергозатратный подход. Новый алгоритм состоит из пяти этапов: 1. Модель извлекает ключевые идеи из текста. 2. Формулирует вопросы на основе выделенных концепций. 3. Проверяет, насколько текст и картинка соответствуют друг другу, основываясь на визуальном анализе. 4. Описывает изображения заново, проанализировав свои же ответы на вопросы. 5. Корректирует галлюцинации с учетом новых вводных. Название было выбрано не случайно: так же как дятел «лечит» деревья, этот инструмент исправляет ошибки в сгенерированных материалах. Исследователи выложили исходный код Woodpecker в сеть, чтобы специалисты в области ИИ могли самостоятельно оценить его возможности. Для наглядности разработчики также предоставили интерактивную демоверсию системы, которая демонстрирует процесс коррекции ошибок в реальном времени. Первоначальные эксперименты проводились на нескольких наборах данных. С POPE, одним из таких датасетов, новый метод позволил увеличить точность базовой модели с 54.67% до 85.33%.
Инструмент обещает стать настоящим прорывом в области искусственного интеллекта, а также открывает новые горизонты для использования MLLMs в приложениях и корпоративных программах. |
Проверить безопасность сайта