1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

演習

Q-learning で 8x8 Frozen Lake を攻略する

この演習では、Q-learning アルゴリズムを用いて、8x8 の Frozen Lake 環境で最適な方策を学習します。今回は "slippery"(滑りやすい)設定が有効になっています。この条件により遷移が確率的になり、エージェントの動きが予測しにくくなるため、より現実に近い状況を再現できます。

あらかじめ初期化済みの Q-table Q と、前の演習で使った update_q_table() 関数、そして各エピソードで得られた合計報酬を格納する空のリスト rewards_per_episode が読み込まれています。

指示

100 XP
  • 各エピソードで、選択した行動を実行し、報酬と次状態を観測します。
  • Q-table を更新します。
  • total_reward を rewards_per_episode リストに追加します。