【24)ゼロから作るDeepLearning ~強化学習編~ INDEX】
メインメニューへ戻る
【メインメニュー】
メインメニューへ戻る
サイトメニュー
24)ゼロから作るDeepLearning ~強化学習編~
Stage09:ゼロから作るDeepLearning ~強化学習編~
00. 今までの経緯
00.00 過去の問題点と反省
01. バンディット問題
01.01 分類と強化学習
01.02 多腕バンディット問題とは
01.03 多腕バンディットアルゴリズム
01.03a アルゴリズム実装
01.03b 期待値
01.04 バンディットアルゴリズムの実装
01.04a スロットマシンの実装
01.04b エージェントの実装
01.04c アルゴリズムの性質
01.05 非定常問題
02. マルコフ決定過程
02.01 MDPとは
02.02 状態遷移・報酬・方策
02.03 MDPの目標
02.04 MDPの例
03. ベルマン方程式
03.01 前準備
03.01A ベルマン方程式の導出
03.02 実例
03.03A 数式改革
03.03 行動価値関数
03.04 ベルマン最適方程式
03.05 ベルマン最適方程式の例
X01. 強化学習 番外編
X01.01 OpenAI Gym/Baselines
04. 動的計画法
04.01 動的計画と方策評価
04.01A 反復方策評価アルゴリズム
04.02 GridWorldクラスの実装
04.02A 反復方策評価の実装
04.03 方策反復法
04.04 方策反復法の実装
04.05 価値反復法
04.05A 価値反復法 数式編
04.06 グリッドワールド改迷路
05. モンテカルロ法
05.00 動的計画法の落とし穴
05.01 モンテカルロ法の基礎
05.02 モンテカルロ法により方策評価
05.03 モンテカルロ法の実装
05.04 方策制御
05.04A フリーズの謎
05.04B 改善
05.05 方策オフ型と重点サンプリング
05.05A 重点サンプリングの実装
05.05B 分散問題
05.06 方策オフ型モンテカルロ法
06. TD法
06.01 TD法
06.01A バラツキシミュレーション
06.01B TD法の実装
06.02 TD法~SARSA~
06.02A TD法~SARSAの実装~
06.03 TD法~方策オフ型SARSA~
06.04 TD法~Q学習~
06.04A TD法~Q学習の実装~
06.05 TD法~分布モデルとサンプルモデル~
06.06 TD法~巨大迷路攻略~
07. ニューラルネットワークとQ学習
07.01 DeZeroの基礎
07.01A DeZeroの基礎 最適化
07.02 DeZero 線形回帰
07.03 DeZero ニューラルネットワーク
07.03A DeZero ニューラルネットワーク実装
07.03B DeZero レイヤとモデル
07.04 Q学習とニューラルネットワーク
07.04A Q関数のニューラルネットワーク
07.04B 巨大迷路対策改
07.04C 学習の最適化
07.04D リサイクル学習と最適化
07.04E 巨大迷路攻略改2
08. DQN
08.01 OpenAI Gym
08.02 DQNコア技術 ~経験再生~
08.02A DQNコア技術 ~ターゲットネットワーク~
08.02B DQNコア技術 ~DQNコア技術のアラカルト~
08.03 DQN ~Atari~
08.03A DQN-Atari~前準備~
08.03B DQN-Atari~前処理・CNN・実装~
08.03C DQN-Atari~改善提案~
08.03D DQN-Atari~改善後結果~
08.04 DQN ~拡張(DoubleDQN/DuelingDQN)~
09. 方策勾配法
09.01 方策勾配法
09.01A 方策勾配法~実装~
09.02 REINFORCE
09.03 baseline
09.04 Actor-Critic
09.05 方策勾配法編~テキストの落とし穴~
10. 方策勾配法系列アルゴリズム
10.01 方策勾配法系列のアルゴリズム
10.02 stable_baselinesの基本仕様
10.03 強化学習各種アルゴリズム
10.04 レトロゲーム学習
10.05 ロボット強化学習
10.06 ロボット強化学習実装①
10.06A ロボット強化学習実装②
10.06B ロボット強化学習実装③
10.06C ロボット強化学習実装④