強化学習とQ学習
  • 強化学習とは
  • 目的の整理
  • 強化学習の難しさ
  • ベルマン方程式
  • マルコフ決定過程
  • 遷移確率
  • 方策
  • 報酬
  • ガンマ(ハイパーパラメーター)
  • 状態価値関数
  • 行動価値関数
  • テンポラルディファレンス
  • Q学習
開発環境の構築
  • 開発環境の構築
Q学習の実装
  • 前提条件の確認
  • ハイパーパラメーターと状態の定義
  • 行動と報酬の定義
  • Q値の定義
  • 初期状態の定義
  • 次の状態の定義
  • Q学習のおさらい
  • テンポラルディファレンスとQ値の定義
  • Q値の確認
  • 状態から場所を表示させる
  • スタート地点の定義
  • 次に移動する場所の定義
  • 最適ルートの表示