- 強化学習とは
- 目的の整理
- 強化学習の難しさ
- ベルマン方程式
- マルコフ決定過程
- 遷移確率
- 方策
- 報酬
- ガンマ(ハイパーパラメーター)
- 状態価値関数
- 行動価値関数
- テンポラルディファレンス
- Q学習
- 開発環境の構築
- 前提条件の確認
- ハイパーパラメーターと状態の定義
- 行動と報酬の定義
- Q値の定義
- 初期状態の定義
- 次の状態の定義
- Q学習のおさらい
- テンポラルディファレンスとQ値の定義
- Q値の確認
- 状態から場所を表示させる
- スタート地点の定義
- 次に移動する場所の定義
- 最適ルートの表示
本講座は、強化学習において使われるQ学習というアルゴリズムをイメージを使って学ぶための講座です。
強化学習の概要から、Q学習を理解する上で必要な項目を順番に分かりやすく説明していきます。
強化学習に対する事前知識は必要ありません。
なお、本講義は世界で130万人以上の受講生を誇るSuperdataScienceチームが作成したAI for Businessの中から、チャプター1のQ学習のレクチャーを日本向けに再収録したものです。
強化学習を理解する上で本講座をぜひともお役立て下さい。
A Great Foundational Course for Beginner Animators
Learn about Coinbase, Binance, Bitcoin, Ethereum, Ripple, Litecoin, Cardano, exchanges, altcoins, security, and wallets
IT教育、システム開発、クラウド環境の3つを軸にしている会社です。
代表大橋のプロフィール
早稲田大学大学院 環境エネルギー専攻修了、三井物産に入社。
2015年に株式会社CODORを設立。
2020年に秀和システム社より「Djangoのツボとコツがゼッタイにわかる本」を出版。
ITを分かりやすくお伝えすることを目指して活動をしています。