정책 비교하기

MyGridWorld 환경에서 서로 다른 두 정책에 대응하는 두 개의 상태 가치 함수(value_function_1, value_function_2)가 제공되어 있습니다. 각 상태별로 이 상태 가치 함수들을 비교하여 어떤 정책이 더 효과적인지 판단하세요.

변수 num_states를 사용할 수 있습니다.

불리언 값으로 이루어진 리스트 one_is_better를 만드세요. 각 원소는 해당 상태에서 value_function_1의 값이 value_function_2의 값보다 크거나 같으면 참이 되도록 하세요.
불리언 값으로 이루어진 리스트 two_is_better를 만드세요. 각 원소는 해당 상태에서 value_function_2의 값이 value_function_1의 값보다 크거나 같으면 참이 되도록 하세요.