Обучение с подкреплением
2026-03-27Многорукие бандиты
Введение
Многорукий бандит — это простейшая постановка sequential decision making без состояний. У нас есть множество ручек и неизвестное распределение награды для каждой из ручек: . На каждом шаге агент выбирает действие и получает за него стохастическую награду. В стационарной постановке распределение каждой ручки не меняется со временем, а раунды независимы друг от друга.
Несмотря на простую постановку, здесь уже есть дилемма exploration vs exploitation, но ещё нет состояний, переходной динамики и отложенных последствий действий. Цель агента за горизонт — выбрать последовательность ручек , которая бы максимизировала ожидаемую суммарную награду
Чтобы это сделать, нужно как-то оценить качество выбранной ручки, для этого введем истинную ценность ручки следующим образом
Если бы истинные значения были известны (но мы их не знаем, так как распределение наград не известны), мы бы всегда выбирали оптимальную ручку
И тем самым бы определили политику , где — траектория выборов агента и соотвествующих наград (просто история действий агента), на каждом шаге выбираея ручку с максимальной наградой.
Но все же можно строить эмпирические оценки фукнции ценности, будем называть ее эмпирической ценность ручки
где — количество раз, когда агент выбрал действие за шагов.
Каждая такая оценка истинной фукнции ценности индуцирует какую-то политику и было бы не плохо понять, как можно оценивать и сравнивать успешность той или иной политики. В качестве метрики качества удобно смотреть на награду, потерянную по сравнению с такой всезнающей политикой (ее еще называют оракулом). Эта величина называется cumulative regret:
Если обозначить разрыв субоптимальности как и число выборов действия как , то
Это важное разложение: минимизировать regret означает как можно реже выбирать субоптимальные действия.
Вернемся к эмпирической оценке фукнции ценности ручки. Пусть на шаге агент выбрал ручку , тогда
Мы получили инкрементальную формулу обновления фукнции ценности, то есть больше нет необходимости хранить всю историю действий, теперь для обновления достаточно одно только . Можно записать эту формулу в более общем виде
Если взять , получаем выборочное среднее. Если задача нестационарна и распределения награды со временем дрейфуют, часто лучше брать постоянный шаг : тогда старые наблюдения экспоненциально забываются.
в теории стохастической оптимизации сущесвуют условия, налагающие ограничения на : чтобы процесс оценки среднего сходился почти наверное, нужны условия:
Теперь зададимся вопросом получения политики из сущесвующей фукнции ценности
ε-greedy политика
Если на каждом шаге выбирать действие, максимизируеющее награду, мы не будем исследовать новые стратегии. Так если на ранних шагах значения наград дали выброс, то мы получим неправильную оценку, и алгоритм зафиксируется на плохом действии. Поэтому можно добавить элемент случайности и ввести -жадную политику:
При фиксированном такая стратегия продолжает случайно исследовать и на поздних шагах, поэтому её regret растёт линейно по
UCB
Вместо добавления вероятности выбора случайного действия можно добавить бонус за неопределённость:
Если действие мало пробовали, то за него будет большой бонус, что приводит к исследованию менее изученных действий. Баланс между exploration и exploitation сохраняется автоматически.
Эта стратегия называется Upper Confidence Bound. Идея в том, что мы выбираем не просто действие с наибольшей текущей средней наградой, а действие с наибольшей верхней доверительной границей. Если для некоторой ручки оценка неточная, то доверительный интервал широкий, и алгоритм будет чаще её исследовать.
Это пример принципа optimism in the face of uncertainty: если про действие мало известно, алгоритм временно предполагает для него более благоприятный сценарий и тем самым заставляет себя собрать информацию.
Для формального объяснения формулы нужно использовать неравенство Хёфдинга: Пусть — i.i.d. и , тогда
В частности, если считать, что , то неравенство принимает вид
Тогда соотвествующая политика будет имеет вид
Интуитивно:
- первое слагаемое отвечает за exploitation, то есть выбор ручек с большой средней наградой;
- второе слагаемое отвечает за exploration, то есть за интерес к ручкам, которые ещё мало исследовали.
Замечание:
- в начале работы нужно хотя бы один раз попробовать каждое действие, иначе для формула не определена;
- в классической постановке UCB1 при ограниченных наградах достигается логарифмический regret , то есть существенно лучше, чем у -жадной стратегии с фиксированным ;
- UCB детерминирован после фиксации наблюдений: вся случайность связана только с наградами среды, а не с самой политикой.
Thompson Sampling
Ещё один популярный подход — Thompson Sampling. Его идея состоит в том, чтобы не подставлять в политику одну точечную оценку , а поддерживать распределение неопределённости на параметрах награды и сэмплировать из него.
Пусть у каждой ручки есть неизвестный параметр . Тогда мы поддерживаем апостериорное распределение
где — все наблюдения к моменту . На шаге :
- для каждой ручки сэмплируем
- выбираем действие
- наблюдаем награду и обновляем posterior.
Интуитивно это тоже баланс exploration/exploitation:
- если по ручке уже много данных, posterior узкий, и сэмплы почти одинаковые;
- если данных мало, posterior широкий, и ручка иногда будет получать большие сэмплы, из-за чего её будут исследовать.
Удобная интерпретация: вероятность выбора действия примерно равна апостериорной вероятности того, что именно оно оптимально. Поэтому exploration здесь возникает не из внешнего шума и не из явного доверительного бонуса, а из самой байесовской неопределённости.