banner

Блог

Jan 12, 2024

Азартные игры встречаются с квантовой физикой

Автор: Intelligent Computing23 августа 2023 г.

Ученые представили схему обучения с фотонным подкреплением, переходящую от статической задачи о многоруком бандите к динамической среде, используя квантовую интерференцию фотонов для улучшения процесса принятия решений. Они разработали модифицированный бандитский алгоритм Q-обучения, протестированный в мире сетки 5×5, с целью точного определения оптимального значения Q для каждой пары состояние-действие, одновременно балансируя исследование и эксплуатацию.

Как игроку максимизировать выигрыш на ряде игровых автоматов? Этот вопрос вдохновил на создание «проблемы многорукого бандита» — распространенной задачи в обучении с подкреплением, в которой «агенты» делают выбор, чтобы получить вознаграждение. Недавно международная группа исследователей под руководством Хироаки Синкавы из Токийского университета представила передовой метод обучения с фотонным подкреплением, который переходит от статической проблемы бандита к более сложной динамической постановке. Их результаты были недавно опубликованы в журнале Intelligent Computing.

Успех схемы зависит как от фотонной системы для повышения качества обучения, так и от вспомогательного алгоритма. Рассматривая «потенциальную фотонную реализацию», авторы разработали модифицированный бандитский алгоритм Q-обучения и подтвердили его эффективность посредством численного моделирования. Они также протестировали свой алгоритм с параллельной архитектурой, где несколько агентов работают одновременно, и обнаружили, что ключом к ускорению параллельного процесса обучения является избежание противоречивых решений за счет использования преимуществ квантовой интерференции фотонов.

Хотя использование квантовой интерференции фотонов не является чем-то новым в этой области, авторы полагают, что это исследование является «первым, которое связывает понятие фотонного совместного принятия решений с Q-обучением и применяет его к динамической среде». Задачи обучения с подкреплением обычно возникают в динамической среде, которая меняется в зависимости от действий агентов и, следовательно, более сложны, чем статическая среда в задаче о бандитах.

Агент выбирает одно из четырех действий, обозначенных черными стрелками, получает вознаграждение и переходит в следующую ячейку. Если агент прибывает в любую из двух специальных ячеек A или B, награда большая, и агент переходит в другую ячейку, как показано красными стрелками. Фото: Хироаки Синкава и др.

Целью данного исследования является сетчатый мир — совокупность ячеек, содержащих различные вознаграждения. Каждый агент может идти вверх, вниз, влево или вправо и получать награду в зависимости от своего текущего перемещения и местоположения. В этой среде следующий ход агента полностью определяется его текущим перемещением и местоположением.

В симуляциях в этом исследовании используется сетка ячеек 5 × 5; каждая ячейка называется «состоянием», каждое движение, совершаемое агентом на каждом временном шаге, называется «действием», а правило, определяющее, как агент выбирает определенное действие в каждом состоянии, называется «политикой». Процесс принятия решений спроектирован как сценарий бандитской задачи, где каждая пара состояние-действие рассматривается как игровой автомат, а изменения значения Q — значений пар состояние-действие — рассматриваются как вознаграждение.

В отличие от базовых алгоритмов Q-обучения, которые обычно сосредоточены на поиске оптимального пути для максимизации вознаграждения, модифицированный бандитский алгоритм Q-обучения направлен на эффективное и точное изучение оптимального значения Q для каждой пары состояние-действие во всей среде. Поэтому для агента важно сохранять хороший баланс между «использованием» знакомых пар с высокими значениями для более быстрого обучения и «исследованием» нечастых пар для потенциально более высоких значений. В качестве политики используется алгоритм softmax, популярная модель, которая превосходно справляется с такого рода балансировкой.

Будущим приоритетом авторов является разработка фотонной системы, поддерживающей бесконфликтное принятие решений как минимум тремя агентами, надеясь, что ее добавление к предложенной ими схеме поможет агентам избежать принятия противоречивых решений. Тем временем они планируют разработать алгоритмы, которые позволят агентам действовать непрерывно, и применять свой бандитский алгоритм Q-обучения для более сложных задач обучения с подкреплением.

ДЕЛИТЬСЯ