ポリシーの比較

MyGridWorld環境で、2つの異なるポリシーに対応する2つの状態価値関数（value_function_1 と value_function_2）が与えられています。各状態ごとにこれらの状態価値関数を比較し、どちらのポリシーがより有効かを判断してください。

変数 num_states は利用可能です。

ブール値のリスト one_is_better を作成し、各要素が、各状態において value_function_1 の値が value_function_2 の値以上かどうかを判定するようにします。
ブール値のリスト two_is_better を作成し、各要素が、各状態において value_function_2 の値が value_function_1 の値以上かどうかを判定するようにします。