감쇠된 epsilon-greedy 전략으로 CliffWalking 해결하기

epsilon-greedy 전략을 강화하기 위해 감쇠 계수(decay factor)를 도입해, 에이전트가 환경을 더 잘 알게 될수록 탐색률 epsilon을 점진적으로 낮춥니다. 이 방식은 학습 초기에 탐색을 장려하고, 환경에 익숙해질수록 학습한 지식을 활용하도록 돕습니다. 이제 이 전략을 CliffWalking 환경에 적용해 보세요.

환경은 이미 초기화되어 있으며 변수 env로 접근할 수 있어요. 변수 epsilon, min_epsilon, epsilon_decay는 미리 정의되어 있습니다. 또한 epsilon_greedy()와 update_q_table() 함수가 임포트되어 있어요.