方策の改善

前の演習では、MyGridWorld 環境における各状態—行動ペアのQ値を計算しました。ここでは、そのQ値を使って既存の方策を改善します。方策の改善は強化学習における重要なステップで、各状態で期待効用（Q値）を最大化する行動を選ぶことで方策を洗練させます。方策を改善したら、この新しい方策に従った動きをレンダリングして確認します。

環境は env として、Q値は Q として、そして render() 関数とともに読み込まれています。