1. Lära sig
  2. /
  3. Courses
  4. /
  5. Python으로 배우는 Gymnasium 기반 Reinforcement Learning

Connected

exercise

Double Q-learning 업데이트 규칙 구현하기

Double Q-learning은 두 개의 별도 Q-테이블을 유지하고 업데이트하여 행동 가치의 과대평가를 줄이는 Q-learning의 확장 기법입니다. 행동 선택과 행동 평가를 분리함으로써, Double Q-learning은 Q-value를 더 정확하게 추정해요. 이 연습 문제에서는 Double Q-learning 업데이트 규칙을 구현해 보겠습니다. 두 개의 Q-테이블을 담은 리스트 Q가 준비되어 있어요.

numpy 라이브러리는 np로 임포트되어 있으며, gamma와 alpha 값이 미리 로드되어 있습니다. 업데이트 공식은 아래 이미지를 참고하세요:

Image showing the update rule of Q1.

Image showing the update rule of Q2.

Instruktioner

100 XP
  • 행동 가치 추정을 위해 Q 안에서 어떤 Q-테이블을 업데이트할지 무작위로 결정하고, 해당 인덱스 i를 계산하세요.
  • Q[i]를 업데이트하기 위한 필요한 단계를 수행하세요.