価値反復法の実装

価値反復法は、最適方策を求めるためのRLにおける重要な手法です。各状態の価値関数を収束するまで反復的に改善し、その結果として最適方策が得られます。ここでは、初期化済みの価値関数 V と policy から始めます（どちらも読み込み済みです）。その後、価値関数が収束するまでループで更新し、最終的な方策の挙動を確認します。

get_max_action_and_value(state, V) 関数はあらかじめ読み込まれています。