1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python으로 배우는 Gymnasium 기반 Reinforcement Learning

Connected

演習

정책 개선하기

이전 연습 문제에서는 MyGridWorld 환경에서 모든 상태-행동 쌍의 Q-값을 계산했어요. 이제 이 Q-값을 사용해 기존 정책을 개선해 보겠습니다. 정책 개선은 강화학습에서 매우 중요한 단계로, 각 상태에서 기대 효용(Q-값)을 최대화하는 행동을 선택하여 정책을 향상합니다. 정책을 개선한 뒤에는, 이 개선된 정책에 따라 새로운 이동 경로를 렌더링할 거예요.

환경은 env로, Q-값은 Q로, 그리고 render() 함수가 함께 불러와져 있습니다.

指示

100 XP
  • Q-값을 기준으로 각 상태에서 최선의 행동을 찾으세요.
  • improved_policy에 따라 올바른 action을 선택하세요.
  • 선택한 action을 실행해 결과를 확인하세요.