Double Q-learning 업데이트 규칙 구현하기

Double Q-learning은 두 개의 별도 Q-테이블을 유지하고 업데이트하여 행동 가치의 과대평가를 줄이는 Q-learning의 확장 기법입니다. 행동 선택과 행동 평가를 분리함으로써, Double Q-learning은 Q-value를 더 정확하게 추정해요. 이 연습 문제에서는 Double Q-learning 업데이트 규칙을 구현해 보겠습니다. 두 개의 Q-테이블을 담은 리스트 Q가 준비되어 있어요.

numpy 라이브러리는 np로 임포트되어 있으며, gamma와 alpha 값이 미리 로드되어 있습니다. 업데이트 공식은 아래 이미지를 참고하세요:

Image showing the update rule of Q1.