最適方策に向けた方策反復の適用

方策反復は、最適な方策を見つけるためのRLにおける基本的な手法です。主に2つのステップから成り、まずは与えられた方策に対して状態価値関数を計算する「方策評価」を行い、その値に基づいて方策を更新する「方策改善」を行います。これらのステップを反復して適用し、カスタム環境 MyGridWorld で最適方策へと収束させます。

render_policy() 関数は、ある方策に従ってエージェントが辿る行動の流れを可視化するために使用します。

compute_state_value(state, policy) と compute_q_value(state, action, policy) はすでに読み込まれています。