08.03.2025 | CompressARC: ИИ-вундеркинд разгадывает сложные головоломки с первого взгляда |
Исследователи Университета Карнеги-Меллон создали алгоритм искусственного интеллекта , который решает сложные логические задачи практически "с нуля" – без предварительного обучения на тысячах примеров. Система получила название CompressARC, и ее главная особенность заключается в принципиально новом подходе к обработке информации. Вместо того чтобы учиться на тысячах примеров, эта нейросеть анализирует каждую задачу отдельно, стремясь найти её самое короткое математическое описание, из которого затем можно восстановить полное решение. В основе CompressARC – специальная нейронная сеть-декодер. В отличие от типичных трансформеров (архитектуры нейросетей, на которых построены современные языковые модели вроде ChatGPT), она не занимается кодированием информации. Её задача – только восстанавливать решение из компактного представления. При этом сеть опирается на "остаточный поток" – механизм, который последовательно сохраняет промежуточные результаты на каждом этапе обработки данных и использует их для уточнения конечного ответа. Для проверки эффективности своего подхода аспирант Исаак Ляо и профессор Альберт Гу выбрали один из самых сложных тестов для искусственного интеллекта – набор визуальных головоломок ARC-AGI, созданный в 2019 году специалистом по машинному обучению Франсуа Шолле. Каждая головоломка представляет собой сетку-паззл. Цифровому испытуемому нужно вывести правило на основе нескольких примеров и применить его к новой ситуации. Вот пример одной из головоломок: на экране появляется сетка, разделенная светло-голубыми линиями. Задача состоит в том, чтобы заполнить ячейки цветами по определенным правилам. Угловые клетки должны быть черными, центральная – пурпурной. Остальные ячейки окрашиваются в зависимости от их расположения относительно центра: верхние – в красный, нижние – в синий, правые – в зеленый, а левые – в желтый цвет. На первый взгляд задача кажется простой, но она требует от искусственного интеллекта сложных навыков: умения анализировать пространственные отношения, выявлять закономерности в расположении элементов и применять выведенные правила к новым ситуациям.
CompressARC также опирается на математический метод "градиентного спуска", позволяющий находить оптимальное решение, постепенно приближаясь к нему небольшими шагами. Компьютер как бы прощупывает пространство возможных ответов: меняет параметры, смотрит, как это влияет на результат, и двигается в сторону улучшения. Но главное отличие CompressARC от других систем в том, что она не перебирает готовые варианты ответов, а стремится создать предельно сжатое описание головоломки – своего рода формулу, которую можно применить к любой похожей задаче. Итоги тестирования впечатляют: программа правильно решает 34,75% задач из тренировочного набора и 20% совершенно новых головоломок. Хотя эти показатели уступают рекордным показателям последней модели OpenAI (o3 справляется с 75,7% задач при ограниченном времени и с 87,5% при неограниченном), у разработки Карнеги-Меллон есть серьезное преимущество. CompressARC выполняет все вычисления на обычной игровой видеокарте RTX 4070 всего за 20 минут, тогда как o3 требует огромных серверных мощностей и временных затрат. Когда мы сжимаем данные, мы фактически ищем в них закономерности и структуры – точно так же, как наш мозг ищет смысл в окружающем мире. Этот принцип отражен в двух фундаментальных концепциях: сложности по Колмогорову (она описывает, насколько коротко можно записать программу для получения нужного результата) и индукции Соломонова (она показывает, как найти наилучший способ предсказания на основе имеющихся данных). Алгоритм, который умеет эффективно сжимать информацию, должен понимать её структуру и находить в ней скрытые паттерны – именно эти качества мы считаем признаками разумного поведения. Исследования в этом направлении уже приносят неожиданные результаты. В сентябре 2023 года команда DeepMind обнаружила, что их языковая модель Chinchilla 70B превосходит специализированные алгоритмы сжатия: она уменьшает размер фрагментов изображений до 43,4% от исходного (против 58,5% у PNG) и сжимает аудио до 16,4% (формат FLAC дает 30,3%). Конечно, у CompressARC есть заметные ограничения. Система хорошо справляется с задачами на распределение цветов, заполнение пробелов и анализ соседних пикселей, но испытывает трудности со счетом, распознаванием удаленных закономерностей, поворотами и отражениями. По мнению скептиков, успехи разработки могут объясняться тем, что она просто научилась использовать специфические математические свойства головоломок ARC – например, их строгую геометрическую структуру и ограниченный набор возможных преобразований. В этом случае тот же подход может оказаться менее эффективным для задач другого типа, где данные имеют более сложную или менее упорядоченную структуру. Тем не менее это открытие может оказаться поворотным моментом в развитии искусственного интеллекта. Вместо наращивания вычислительной мощности и объемов данных для обучения, исследователи предлагают сосредоточиться на том, как машины обрабатывают и структурируют информацию. Такой подход не только экономит ресурсы, но и приближает нас к пониманию самой природы мышления. |
Проверить безопасность сайта