1. 学习
  2. /
  3. 课程
  4. /
  5. Python으로 배우는 Gymnasium 기반 Reinforcement Learning

Connected

练习

정책의 상태 가치 계산하기

동일한 결정적 환경 MyGridWorld에서, 이제 이전 연습 문제에서 정의한 정책이 얼마나 효과적인지 평가해야 해요. 이를 위해 이 정책하에서 각 상태의 상태 가치 함수를 계산할 거예요.

환경은 필요한 변수들(terminal_state, num_states, policy, gamma)과 함께 env로 이미 가져와 두었어요.

说明

100 XP
  • 주어진 정책에서 각 상태의 가치를 계산하도록 compute_state_value() 함수를 완성하세요.
  • 각 키가 state이고 각 값이 해당 상태 가치인 state_values 딕셔너리를 만드세요.