정책 반복으로 최적 정책 구하기

정책 반복은 최적 정책을 찾기 위한 RL의 기본 기법입니다. 이 방법은 두 단계로 이뤄져요. 먼저 주어진 정책에 대해 상태가치함수를 계산하는 정책 평가, 그리고 이 값을 바탕으로 정책을 갱신하는 정책 개선입니다. 이 두 단계를 반복 적용해, 커스텀 환경인 MyGridWorld에서 최적 정책에 수렴하도록 하겠습니다.

render_policy() 함수는 특정 정책에 따라 에이전트가 수행하는 동작을 시각화해 줍니다.

compute_state_value(state, policy)와 compute_q_value(state, action, policy) 함수는 미리 로드되어 있습니다.