1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 Gymnasium 기반 Reinforcement Learning

Connected

연습 문제

정책 반복으로 최적 정책 구하기

정책 반복은 최적 정책을 찾기 위한 RL의 기본 기법입니다. 이 방법은 두 단계로 이뤄져요. 먼저 주어진 정책에 대해 상태가치함수를 계산하는 정책 평가, 그리고 이 값을 바탕으로 정책을 갱신하는 정책 개선입니다. 이 두 단계를 반복 적용해, 커스텀 환경인 MyGridWorld에서 최적 정책에 수렴하도록 하겠습니다.

render_policy() 함수는 특정 정책에 따라 에이전트가 수행하는 동작을 시각화해 줍니다.

compute_state_value(state, policy)와 compute_q_value(state, action, policy) 함수는 미리 로드되어 있습니다.

지침 1/3

undefined XP
    1
    2
    3
  • 주어진 policy에 대한 상태가치함수 V를 계산하도록 policy_evaluation() 함수를 완성하세요.