Double Q-learning を適用する

この演習では、Expected SARSA で解いたのと同じカスタム環境に対して Double Q-learning アルゴリズムを適用し、違いを確かめます。Double Q-learning は 2 つの Q テーブルを用いることで、従来の Q-learning アルゴリズムに内在する過大評価バイアスを軽減し、他の時間差分法よりも安定した学習を実現します。この手法を使ってグリッド環境を移動し、できるだけ早くゴールに到達するために、山を避けつつ最も高い報酬を目指します。