1. Learn
  2. /
  3. Courses
  4. /
  5. Python으로 배우는 Gymnasium 기반 Reinforcement Learning

Connected

Exercise

SARSA로 8x8 Frozen Lake 풀기

이 연습 문제에서는 이전에 구현한 update_q_table() 함수를 포함한 SARSA 알고리즘을 적용하여 8x8 Frozen Lake 환경에서 최적 정책을 학습해 보겠습니다. 이 환경은 클래식한 4x4 환경과 동일하지만 크기만 더 큽니다. 환경에서 받은 보상에 기반해 SARSA 알고리즘으로 에이전트의 정책을 반복적으로 향상시킬 거예요.

Q-테이블 Q가 초기화되어 미리 로드되어 있으며, 이전 연습 문제의 update_q_table() 함수도 함께 제공됩니다.

Instructions

100 XP
  • 학습 과정의 각 에피소드마다 선택한 action을 실행하세요.
  • next_action은 무작위로 선택하세요.
  • 주어진 state와 action에 대해 Q-테이블을 업데이트하세요.