スロットマシン(バンディット)問題から始める強化学習の基礎
  • 本セクションで使用するファイルについて
  • 強化学習の中心概念、「状態、行動、報酬、方策」について
  • バンディットクラスの作成
  • エージェントはどのように学習を行うのか
  • 行動をランダムに選ぶエージェントの作成
  • 記録を更新するメソッドを作成
  • 勝率を確認する
  • 経験知を活かすエージェントの作成
  • イプシロングリーディ法を実装する
  • イプシロングリーディ法の結果をプロットする
  • 状態(レート)の変動する非定常問題を考える
  • 非定常問題へのエージェントの対応結果