1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 Gymnasium 기반 Reinforcement Learning

Connected

연습 문제

Double Q-learning 적용하기

이 연습 문제에서는 Expected SARSA로 풀어 보았던 동일한 사용자 지정 환경에서 Double Q-learning 알고리즘을 적용해 차이를 살펴보겠습니다. Double Q-learning은 두 개의 Q-table을 사용하여 전통적인 Q-learning 알고리즘에 내재한 과대추정 편향을 줄이고, 다른 시차 차이(temporal difference) 방법보다 더 안정적인 학습을 제공합니다. 이 방법을 사용해 격자(grid) 환경을 탐색하면서, 산을 피하고 가능한 한 빨리 목표에 도달하도록 하며 가장 높은 보상을 노려 보세요.

new_cust_env.png

지침

100 XP
  • 이전 연습 문제에서 코딩한 update_q_tables() 함수를 사용해 Q-table을 업데이트하세요.
  • 두 Q-table을 합산해 결합하세요.