1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

演習

Double Q-learning を適用する

この演習では、Expected SARSA で解いたのと同じカスタム環境に対して Double Q-learning アルゴリズムを適用し、違いを確かめます。Double Q-learning は 2 つの Q テーブルを用いることで、従来の Q-learning アルゴリズムに内在する過大評価バイアスを軽減し、他の時間差分法よりも安定した学習を実現します。この手法を使ってグリッド環境を移動し、できるだけ早くゴールに到達するために、山を避けつつ最も高い報酬を目指します。

new_cust_env.png

指示

100 XP
  • 直前の演習で作成した update_q_tables() 関数を使って Q テーブルを更新します。
  • 2 つの Q テーブルを合計して結合します。