演習

Expected SARSA を適用する

ここでは、下図のカスタム環境で Expected SARSA アルゴリズムを適用します。目的は、エージェントをグリッド上でできるだけ速くゴールに到達させることです。これまでと同じルールが適用されます。ダイヤに到達すると +10、山を通過すると -2、その他のすべての状態は -1 の報酬を受け取ります。

環境は env としてインポート済みです。

指示

100 XP

各状態-行動の組に対して、Qテーブル Q をゼロで初期化します。
update_q_table() 関数を使ってQテーブルを更新します。
学習済みのQテーブルから方策を辞書として抽出します。

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習