Copyright(c)2018 GGE Kiyosu Cyber Club Allrights Reserved

【24)ゼロから作るDeepLearning ～強化学習編～ INDEX】

メインメニューへ戻る

【メインメニュー】

メインメニューへ戻る

サイトメニュー

24)ゼロから作るDeepLearning ～強化学習編～

Stage09:ゼロから作るDeepLearning ～強化学習編～

00. 今までの経緯

00.00 過去の問題点と反省

01. バンディット問題

01.01 分類と強化学習

01.02 多腕バンディット問題とは

01.03 多腕バンディットアルゴリズム

01.03a アルゴリズム実装

01.03b 期待値

01.04 バンディットアルゴリズムの実装

01.04a スロットマシンの実装

01.04b エージェントの実装

01.04c アルゴリズムの性質

01.05 非定常問題

02. マルコフ決定過程

02.01 MDPとは

02.02 状態遷移・報酬・方策

02.03 MDPの目標

02.04 MDPの例

03. ベルマン方程式

03.01 前準備

03.01A ベルマン方程式の導出

03.03A 数式改革

03.03 行動価値関数

03.04 ベルマン最適方程式

03.05 ベルマン最適方程式の例

X01. 強化学習番外編

X01.01 OpenAI Gym/Baselines

04. 動的計画法

04.01 動的計画と方策評価

04.01A 反復方策評価アルゴリズム

04.02 GridWorldクラスの実装

04.02A 反復方策評価の実装

04.03 方策反復法

04.04 方策反復法の実装

04.05 価値反復法

04.05A 価値反復法数式編

04.06 グリッドワールド改迷路

05. モンテカルロ法

05.00 動的計画法の落とし穴

05.01 モンテカルロ法の基礎

05.02 モンテカルロ法により方策評価

05.03 モンテカルロ法の実装

05.04 方策制御

05.04A フリーズの謎

05.05 方策オフ型と重点サンプリング

05.05A 重点サンプリングの実装

05.05B 分散問題

05.06 方策オフ型モンテカルロ法

06.01A バラツキシミュレーション

06.01B TD法の実装

06.02 TD法～SARSA～

06.02A TD法～SARSAの実装～

06.03 TD法～方策オフ型SARSA～

06.04 TD法～Q学習～

06.04A TD法～Q学習の実装～

06.05 TD法～分布モデルとサンプルモデル～

06.06 TD法～巨大迷路攻略～

07. ニューラルネットワークとQ学習

07.01 DeZeroの基礎

07.01A DeZeroの基礎最適化

07.02 DeZero 線形回帰

07.03 DeZero ニューラルネットワーク

07.03A DeZero ニューラルネットワーク実装

07.03B DeZero レイヤとモデル

07.04 Q学習とニューラルネットワーク

07.04A Q関数のニューラルネットワーク

07.04B 巨大迷路対策改

07.04C 学習の最適化

07.04D リサイクル学習と最適化

07.04E 巨大迷路攻略改２

08.01 OpenAI Gym

08.02 DQNコア技術～経験再生～

08.02A DQNコア技術～ターゲットネットワーク～

08.02B DQNコア技術～DQNコア技術のアラカルト～

08.03 DQN ～Atari～

08.03A DQN-Atari～前準備～

08.03B DQN-Atari～前処理・CNN・実装～

08.03C DQN-Atari～改善提案～

08.03D DQN-Atari～改善後結果～

08.04 DQN ～拡張(DoubleDQN/DuelingDQN)～

09. 方策勾配法

09.01 方策勾配法

09.01A 方策勾配法～実装～

09.02 REINFORCE

09.04 Actor-Critic

09.05 方策勾配法編～テキストの落とし穴～

10. 方策勾配法系列アルゴリズム

10.01 方策勾配法系列のアルゴリズム

10.02 stable_baselinesの基本仕様

10.03 強化学習各種アルゴリズム

10.04 レトロゲーム学習

10.05 ロボット強化学習

10.06 ロボット強化学習実装①

10.06A ロボット強化学習実装②

10.06B ロボット強化学習実装③

10.06C ロボット強化学習実装④