1. 학습
  2. /
  3. 강의
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

연습 문제

価値反復法の実装

価値反復法は、最適方策を求めるためのRLにおける重要な手法です。各状態の価値関数を収束するまで反復的に改善し、その結果として最適方策が得られます。ここでは、初期化済みの価値関数 V と policy から始めます(どちらも読み込み済みです)。その後、価値関数が収束するまでループで更新し、最終的な方策の挙動を確認します。

get_max_action_and_value(state, V) 関数はあらかじめ読み込まれています。

지침

100 XP
  • 各状態について、Q値が最大となる行動(max_action)と、そのときの値(max_q_value)を求めます。
  • max_action と max_q_value に基づいて、new_V 辞書と policy を更新します。
  • すべての状態で new_v と V の差が threshold 未満かどうかを確認し、収束判定を行います。