1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

演習

SARSAで8x8 Frozen Lakeを解く

この演習では、以前に実装した update_q_table() 関数を組み込んだ SARSA アルゴリズムを適用し、8x8 Frozen Lake 環境で最適方策を学習します。これは古典的な 4x4 環境と同一ですが、サイズが大きい点だけが異なります。環境から得られる報酬に基づいて、SARSA アルゴリズムでエージェントの方策を反復的に改善していきます。

Qテーブル Q は初期化済みで事前に読み込まれており、前の演習で使った update_q_table() 関数も利用できます。

指示

100 XP
  • 学習の各エピソードで、選択した action を実行します。
  • next_action をランダムに選択します。
  • 与えられた state と action に対して Qテーブルを更新します。