1. Learn
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

Exercise

Expected SARSA を適用する

ここでは、下図のカスタム環境で Expected SARSA アルゴリズムを適用します。目的は、エージェントをグリッド上でできるだけ速くゴールに到達させることです。これまでと同じルールが適用されます。ダイヤに到達すると +10、山を通過すると -2、その他のすべての状態は -1 の報酬を受け取ります。

new_cust_env.png

環境は env としてインポート済みです。

Instructions

100 XP
  • 各状態-行動の組に対して、Qテーブル Q をゼロで初期化します。
  • update_q_table() 関数を使ってQテーブルを更新します。
  • 学習済みのQテーブルから方策を辞書として抽出します。