23.08.2023 | От азартных игр к ИИ: алгоритм "Бандита" на стыке с фотонной революцией |
Как азартный игрок максимизирует выигрыши от ряда игровых автоматов? Этот вопрос лег в основу "проблемы многорукого бандита", распространенной задачи в обучении с подкреплением, где "агенты" принимают решения для получения наград. Недавно международная исследовательская группа под руководством Хироаки Шинкава из Токийского университета представила расширенную схему фотонного обучения с подкреплением, переходя от статической проблемы бандита к более сложной динамической среде. Результаты исследования были опубликованы в журнале Intelligent Computing. Ключевым элементом новой схемы является сочетание фотонной системы, направленной на улучшение качества обучения, и вспомогательного алгоритма. Исследователи разработали модифицированный алгоритм Q-обучения и проверили его эффективность с помощью численных симуляций. Особенностью примененного алгоритма является использование параллельной архитектуры: множество агентов действует одновременно. Главное условие для ускорения процесса параллельного обучения - избежание противоречивых решений, используя квантовое вмешательство фотонов. Хотя применение квантового вмешательства фотонов в этой области не ново, исследователи считают, что их работа - первая, сочетающая фотонное кооперативное принятие решений с Q-обучением в динамической среде. В рамках этого исследования рассматривается "мировая сетка" - коллекция ячеек с различными наградами. В такой среде следующий ход агента полностью зависит от его текущего хода и местоположения. В симуляциях использовалась сетка размером 5x5 ячеек. Важным аспектом является баланс между "эксплуатацией" известных пар с высокими значениями для более быстрого обучения и "исследованием" редко посещаемых пар в поисках потенциально более высоких наград. Для этого используется алгоритм softmax. В дальнейшем авторы планируют разработать фотонную систему, поддерживающую принятие решений без конфликтов для трех и более агентов, а также развивать алгоритмы, позволяющие агентам действовать непрерывно. |
Проверить безопасность сайта