学ぶ

/

コース

/

Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

演習

方策に対する状態価値の計算

同じ決定論的な環境 MyGridWorld を使って、前の演習で定義した方策の有効性を評価します。ここでは、この方策の下で各状態の状態価値関数を計算して評価します。

環境は env としてインポート済みで、必要な変数（terminal_state、num_states、policy、gamma）も用意されています。

指示

100 XP

与えられた方策の下で各状態の価値を計算するため、compute_state_value() 関数を完成させてください。
各キーが state、各値がその状態価値となる state_values 辞書を作成してください。