完全なDQNアルゴリズムの実装

ついにこの時が来ました！前提となる準備はすべて整いました。ここではDQNアルゴリズムをフル実装し、Lunar Landerエージェントの学習に使います。つまり、Experience Replay だけでなく、Decayed Epsilon-Greediness と Fixed Q-Targets も用いるということです。

Decayed Epsilon Greediness を実装した select_action() 関数と、前の演習で作成した update_target_network() 関数は用意されています。あとはそれらの関数をDQNの学習ループに組み込み、損失の計算でターゲットネットワークを正しく使えていることを確認するだけです。

時間とともに \(\varepsilon\) の値を減衰させるために、新しいステップカウンタ total_steps を管理する必要があります。この変数は初期値0で初期化済みです。