12.10.2023 | Ученые Anthropic открыли метод анализа ИИ: шаг к пониманию цифрового мозга |
В недавнем исследовании, проведенном бывшими сотрудниками OpenAI , а ныне сотрудничающими с Anthropic , предложен новый подход к пониманию искусственных нейронных сетей. Эти сети, по своей сути цифровые версии человеческих мозгов, способны выполнять различные задачи, от игры в шахматы до перевода языков. Ученые сосредоточились на комбинациях нейронов, которые коллективно создают различимые закономерности или особенности, вместо того чтобы тщательно изучать отдельные нейроны. Закономерности оказываются более точными и последовательными, чем их отдельные нейронные аналоги, что позволяет лучше понимать поведение сети. Основным недостатком способа является отсутствие четко определенной цели у отдельных нейронов в системе. Например, в языковой модели один нейрон может реагировать на различные сценарии, варьируя свою активность. В статье учёных представлен новый подход к анализу трансформерных моделей. Методика предполагает использование словарного обучения для разложения слоя из 512 нейронов на более 4 000 различных функций, охватывающих широкий спектр тем и концепций, начиная от последовательностей ДНК и юридической терминологии и заканчивая веб-запросами, текстами на иврите и данными о питании. Такие многогранные особенности остаются в значительной степени скрытыми при исследовании отдельных нейронов. Исследователи используют два разных метода, чтобы продемонстрировать улучшенную интерпретируемость этих функций по сравнению с нейронами. В первом эксперименте исследователи оценивали простоту понимания функциональности каждой закономерности. Характеристики значительно превосходят нейроны с точки зрения интерпретируемости. Во втором эксперименте была использована языковая модель для создания кратких описаний каждой особенности, а затем используют другую модель для прогнозирования степени активации каждой функции на основе описаний. Новые особенности позволяют более точно контролировать поведение сети, что подтверждено универсальностью закономерностей в различных моделях. Эксперименты также были проведены для точной настройки числа особенностей, создавая «рукоятку» для регулировки исследования модели. Работа является этапом стремления Anthropic к механистической интерпретируемости, что отражает долгосрочное стремление к продвижению безопасности ИИ. Это исследование создает мост между компьютерными науками и нейронауками, раскрывая новые горизонты для понимания искусственных нейронных сетей. |
Проверить безопасность сайта