23.08.2024

mPLUG-Owl3 от Alibaba: анализ 400 изображений в секунду на одной видеокарте

Инженеры из китайской компании Alibaba представили новую мультимодальную модель машинного обучения под названием mPLUG-Owl3. Эта модель способна эффективно анализировать текст, изображения и видео. Разработчики уделяют особое внимание скорости работы нейросети, утверждая, что на обработку двухчасового видео требуется всего четыре секунды.

mPLUG-Owl3 базируется на модели Qwen2, которая была существенно доработана и оптимизирована. Благодаря этим изменениям время ожидания первого токена сократилось в шесть раз, а одна видеокарта A100 теперь может обрабатывать до 400 изображений в секунду. Также в модели был использован специальный блок HATB (Hyper Attention Transformer), который интегрирует визуальные и текстовые признаки, позволяя, например, искать визуальные образы на основе текстовых запросов.

Код проекта открыт и размещён на GitHub. Дополнительно разработчики предоставили все необходимые материалы для работы на платформах Hugging Face и китайском аналоге Model Scope . В полном тексте исследования подробно описан процесс разработки и работы модели mPLUG-Owl3.

««« Новости

Сайт: *
ФИО: *
E-mail: *	Телефон: *
Комментарий: *
* Введите ответ: 3+6

Бесплатно Экспресс-аудит сайта:

mPLUG-Owl3 от Alibaba: анализ 400 изображений в секунду на одной видеокарте