1. เรียนรู้
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶGymnasiumによるReinforcement Learning

Connected

Exercises

ポリシーの比較

MyGridWorld環境で、2つの異なるポリシーに対応する2つの状態価値関数(value_function_1 と value_function_2)が与えられています。各状態ごとにこれらの状態価値関数を比較し、どちらのポリシーがより有効かを判断してください。

変数 num_states は利用可能です。

คำแนะนำ

100 XP
  • ブール値のリスト one_is_better を作成し、各要素が、各状態において value_function_1 の値が value_function_2 の値以上かどうかを判定するようにします。
  • ブール値のリスト two_is_better を作成し、各要素が、各状態において value_function_2 の値が value_function_1 の値以上かどうかを判定するようにします。