状態価値関数(State Value Function)を学ぶ
  • 本セクションで使用するファイルについて
  • 収益、割引率、割引収益とは
  • 状態の価値とは、状態価値関数とは
  • FrozenLakeの環境を確認する
  • 状態遷移確率などの詳細情報を取得する
  • 確率論的(stochastic)な状態遷移
  • ベルマン方程式を更新式として状態価値関数を更新する
  • 更新式をコードで表現する
  • 価値反復により各状態の価値を求める
  • 閾値を用いた更新回数の制御と最適方程式の利用
  • 本コースは以上となります m(_ _)m