1. Learn
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

Exercise

方策の改善

前の演習では、MyGridWorld 環境における各状態—行動ペアのQ値を計算しました。ここでは、そのQ値を使って既存の方策を改善します。方策の改善は強化学習における重要なステップで、各状態で期待効用(Q値)を最大化する行動を選ぶことで方策を洗練させます。方策を改善したら、この新しい方策に従った動きをレンダリングして確認します。

環境は env として、Q値は Q として、そして render() 関数とともに読み込まれています。

Instructions

100 XP
  • Q値に基づいて、各状態の最適な行動を見つけましょう。
  • improved_policy に基づいて、正しい action を選択します。
  • 選択した action を実行して、その結果を確認します。