1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

演習

Q値の計算

ここでは、以下のポリシーに従ったときに、カスタム環境 MyGridWorld の各状態・行動ペアに対するアクション価値(Q値)を計算します。RL において Q値は、ある状態で特定の行動を実行し、その後もポリシーに従うときに得られる期待効用を表すため、非常に重要です。

exercise_policy.png

環境は env としてインポート済みで、compute_state_value() 関数と、必要な変数(terminal_state、num_states、num_actions、policy、gamma)も用意されています。

指示

100 XP
  • 与えられた state と action のアクション価値を計算するために、compute_q_value() 関数を完成させてください。
  • 各キーが状態・行動ペアを表し、その値が対応するQ値となるディクショナリ Q を作成してください。