우선순위 기반 경험 재현을 적용한 DQN

이번 연습 문제에서는 Prioritized Experience Replay(PER)를 도입해 DQN 알고리즘을 개선해 보겠습니다. PER의 목적은 각 단계에서 네트워크를 업데이트할 때 선택되는 전이 배치의 품질을 최적화하는 것입니다.

참고로, PrioritizedReplayBuffer에 대해 선언해 둔 메서드 이름은 다음과 같습니다.

push() (전이를 버퍼에 추가)
sample() (버퍼에서 전이 배치를 샘플링)
increase_beta() (중요도 샘플링을 점진적으로 강화)
update_priorities() (샘플링된 항목의 우선순위 업데이트)

각 에피소드를 설명하기 위해 describe_episode() 함수를 다시 사용합니다.

전이 10000개 용량의 Prioritized Experience Replay 버퍼를 인스턴스화하세요.
시간 경과에 따라 beta 매개변수를 업데이트해 중요도 샘플링의 영향력을 높이세요.
최신 TD 오류를 기준으로 샘플링된 경험의 우선순위를 업데이트하세요.