SARSA로 8x8 Frozen Lake 풀기

이 연습 문제에서는 이전에 구현한 update_q_table() 함수를 포함한 SARSA 알고리즘을 적용하여 8x8 Frozen Lake 환경에서 최적 정책을 학습해 보겠습니다. 이 환경은 클래식한 4x4 환경과 동일하지만 크기만 더 큽니다. 환경에서 받은 보상에 기반해 SARSA 알고리즘으로 에이전트의 정책을 반복적으로 향상시킬 거예요.

Q-테이블 Q가 초기화되어 미리 로드되어 있으며, 이전 연습 문제의 update_q_table() 함수도 함께 제공됩니다.