정책 개선하기

이전 연습 문제에서는 MyGridWorld 환경에서 모든 상태-행동 쌍의 Q-값을 계산했어요. 이제 이 Q-값을 사용해 기존 정책을 개선해 보겠습니다. 정책 개선은 강화학습에서 매우 중요한 단계로, 각 상태에서 기대 효용(Q-값)을 최대화하는 행동을 선택하여 정책을 향상합니다. 정책을 개선한 뒤에는, 이 개선된 정책에 따라 새로운 이동 경로를 렌더링할 거예요.

환경은 env로, Q-값은 Q로, 그리고 render() 함수가 함께 불러와져 있습니다.