23.10.2023 | LLEMMA: 34 миллиарда параметров в борьбе за математическое превосходство. |
20 октября 2023 года исследователи из различных университетов и компании Eleuther AI, известной своими открытыми моделями, представили LLEMMA - открытую модель большого языкового обучения (LLM), специально разработанную для решения математических задач. LLEMMA превосходит другие ведущие математические модели, включая Minerva от Google , предоставляя надежную платформу для дальнейших исследований. Несмотря на то что LLEMMA не является идеальным решателем математических задач, это важный шаг в разработке специализированных моделей и может стимулировать исследования ИИ в новых направлениях. LLEMMA была создана на основе Code Llama, адаптации открытой модели Llama 2, настроенной на специфические наборы данных кода. Исследователи разработали две версии модели: одну с 7 миллиардами параметров и другую с 34 миллиардами. Эти модели были дополнительно настроены на Proof-Pile-2, набор данных, созданный исследователями, который состоит из научных статей, веб-данных с математическим содержанием и математического кода. В своих экспериментах исследователи обнаружили, что LLEMMA показывает лучшую производительность по сравнению со всеми известными открытыми моделями на математических эталонах. LLEMMA также может использовать инструменты и доказывать формальные теоремы без дополнительной настройки, а также использовать вычислительные инструменты, такие как интерпретатор Python, для решения математических задач. Исследователи выпустили все свои активы, включая модели с 7 и 34 миллиардами параметров, набор данных Proof-Pile-2 и код для воспроизведения своих экспериментов. Согласно исследователям, LLEMMA является первой открытой моделью, которая соответствует производительности закрытых моделей последнего поколения. Они выразили надежду, что LLEMMA и Proof-Pile-2 станут полезной базой для будущих работ по пониманию обобщения языковых моделей, исследованию пределов доменно-специфичных языковых моделей и улучшению математических возможностей языковых моделей. В целом, LLEMMA является частью более широкой инициативы по разработке LLM, специализирующихся в конкретной области, демонстрируя, что с улучшенными данными и большими наборами данных даже меньшие модели могут давать значительные результаты. |
Проверить безопасность сайта