1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

演習

最適方策に向けた方策反復の適用

方策反復は、最適な方策を見つけるためのRLにおける基本的な手法です。主に2つのステップから成り、まずは与えられた方策に対して状態価値関数を計算する「方策評価」を行い、その値に基づいて方策を更新する「方策改善」を行います。これらのステップを反復して適用し、カスタム環境 MyGridWorld で最適方策へと収束させます。

render_policy() 関数は、ある方策に従ってエージェントが辿る行動の流れを可視化するために使用します。

compute_state_value(state, policy) と compute_q_value(state, action, policy) はすでに読み込まれています。

指示1 / 3

undefined XP
    1
    2
    3
  • policy_evaluation() 関数を完成させて、与えられた policy に対する状態価値関数 V を計算してください。