06.02.2025 | Модель за $6 против суперкомпьютеров: чему учит эксперимент S1 |
Новая работа, опубликованная в пятницу , привлекла внимание сообщества искусственного интеллекта не столько моделью, сколько демонстрацией того, насколько близки большие прорывы. Представленный в ней алгоритм не превосходит передовые решения, но способен работать на обычном ноутбуке. Главное же — он раскрывает механизмы работы ИИ, и, как оказалось, они не так сложны. Увеличение времени мышления: простой, но мощный трюкOpenAI первыми описали масштабируемость моделей при увеличении времени размышления перед ответом. Однако вопрос о том, как именно заставить ИИ "думать" дольше, оставался без подробностей. S1 впервые даёт конкретное объяснение. Во время работы модель использует специальные теги Похожий принцип применялся в концепции entropix — регулирование выбора токенов через анализ энтропии. Судя по всему, такие техники будут всё чаще использоваться как на этапе обучения, так и во время работы моделей. Дёшево и эффективно: новая эра в обучении ИИОдним из самых удивительных аспектов S1 стала стоимость обучения: всего $6. Такой результат достигнут за счёт минимизации объёма данных. Исходный набор из 56 000 примеров был отфильтрован до 1 000 самых информативных, чего оказалось достаточно для достижения производительности на уровне OpenAI o1-preview при использовании модели на 32B параметров. Модель обучалась всего 26 минут на 16 GPU H100, что позволило авторам провести множество экспериментов. Они проверяли каждую гипотезу с помощью абляционного анализа — повторных запусков с небольшими изменениями. Например, слово "Wait" оказалось более эффективным, чем "Hmm", что было доказано эмпирическим путём. Такие малозатратные эксперименты ускоряют развитие ИИ, делая исследования доступными не только крупным корпорациям, но и независимым группам. Политика и будущее развития ИИИнновации, снижающие стоимость обучения, поднимают вопросы о роли больших игроков, таких как OpenAI и Anthropic, которые тратят миллиарды на суперкомпьютеры. Можно предположить, что огромные вычислительные мощности избыточны, однако количество возможных экспериментов возрастает пропорционально ресурсам. Также обсуждается проблема нелегального копирования данных (distealing). S1 использует данные, созданные моделью Qwen2.5, а OpenAI обвиняет DeepSeek в незаконной дистилляции модели o1. Это поднимает вопрос: возможно ли вообще контролировать распространение знаний ИИ, если достаточно небольшого числа примеров для обучения новых моделей? Вывод: что нас ждёт дальше?S1 демонстрирует, что прорывы в ИИ происходят не только за счёт масштабных вычислений, но и благодаря дешёвым, но продуманным экспериментам. Кроме того, работа подтверждает, что традиционное обучение (SFT) может быть столь же эффективным, как и методы обучения с подкреплением (RL). Темпы развития технологий в 2025 году обещают быть головокружительными. Мы только в начале февраля, но уже очевидно, что впереди нас ждут важные открытия. |
Проверить безопасность сайта