Double Q-learning 적용하기

이 연습 문제에서는 Expected SARSA로 풀어 보았던 동일한 사용자 지정 환경에서 Double Q-learning 알고리즘을 적용해 차이를 살펴보겠습니다. Double Q-learning은 두 개의 Q-table을 사용하여 전통적인 Q-learning 알고리즘에 내재한 과대추정 편향을 줄이고, 다른 시차 차이(temporal difference) 방법보다 더 안정적인 학습을 제공합니다. 이 방법을 사용해 격자(grid) 환경을 탐색하면서, 산을 피하고 가능한 한 빨리 목표에 도달하도록 하며 가장 높은 보상을 노려 보세요.