Q値の計算

ここでは、以下のポリシーに従ったときに、カスタム環境 MyGridWorld の各状態・行動ペアに対するアクション価値（Q値）を計算します。RL において Q値は、ある状態で特定の行動を実行し、その後もポリシーに従うときに得られる期待効用を表すため、非常に重要です。

環境は env としてインポート済みで、compute_state_value() 関数と、必要な変数（terminal_state、num_states、num_actions、policy、gamma）も用意されています。

演習