1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 Gymnasium 기반 Reinforcement Learning

Connected

연습 문제

epsilon-greedy 전략으로 CliffWalking 풀기

CliffWalking 환경은 RL 알고리즘을 위한 표준 테스트베드예요. 이 환경은 에이전트가 시작 상태에서 목표 상태까지 절벽을 피해 길을 찾아가야 하는 그리드 월드입니다. epsilon-greedy 전략을 사용하면 에이전트가 환경을 효과적으로 탐색하면서 절벽을 피하는 방법을 학습해 누적 보상을 극대화할 수 있어요. 이번 과제에서는 epsilon-greedy 전략으로 이 환경을 해결하고, 각 학습 에피소드에서 얻은 보상을 계산해 rewards_eps_greedy 리스트에 저장하세요.

지침

100 XP
  • 각 에피소드 안에서 epsilon_greedy() 함수를 사용해 action을 선택하세요.
  • 받은 reward를 episode_reward에 누적하세요.
  • 각 에피소드가 끝날 때, 전체 episode_reward를 나중에 분석할 수 있도록 rewards_eps_greedy 리스트에 추가하세요.