1. 학습
  2. /
  3. 강의
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

연습 문제

方策に対する状態価値の計算

同じ決定論的な環境 MyGridWorld を使って、前の演習で定義した方策の有効性を評価します。ここでは、この方策の下で各状態の状態価値関数を計算して評価します。

環境は env としてインポート済みで、必要な変数(terminal_state、num_states、policy、gamma)も用意されています。

지침

100 XP
  • 与えられた方策の下で各状態の価値を計算するため、compute_state_value() 関数を完成させてください。
  • 各キーが state、各値がその状態価値となる state_values 辞書を作成してください。