1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 Gymnasium 기반 Reinforcement Learning

Connected

연습 문제

정책 비교하기

MyGridWorld 환경에서 서로 다른 두 정책에 대응하는 두 개의 상태 가치 함수(value_function_1, value_function_2)가 제공되어 있습니다. 각 상태별로 이 상태 가치 함수들을 비교하여 어떤 정책이 더 효과적인지 판단하세요.

변수 num_states를 사용할 수 있습니다.

지침

100 XP
  • 불리언 값으로 이루어진 리스트 one_is_better를 만드세요. 각 원소는 해당 상태에서 value_function_1의 값이 value_function_2의 값보다 크거나 같으면 참이 되도록 하세요.
  • 불리언 값으로 이루어진 리스트 two_is_better를 만드세요. 각 원소는 해당 상태에서 value_function_2의 값이 value_function_1의 값보다 크거나 같으면 참이 되도록 하세요.