Experience Replay を用いた DQN

ここでは、Experience Replay を導入して Deep Q Network を用いたエージェントの学習を行います。環境は、Barebone DQN を作成したときと同じ Lunar Lander を使います。

各ステップで、直近の遷移だけから学習してネットワークを更新するのではなく、Experience Replay バッファを使って、直近の経験からランダムに抽出したバッチで学習します。これにより、環境について学習する能力が大きく向上します。

前の演習で使った QNetwork と ReplayBuffer クラスは次のようにインスタンス化済みです。