우선순위 기반 경험 재생 버퍼

이제 PrioritizedExperienceReplay 클래스를 소개합니다. 이 자료구조는 이후에 Prioritized Experience Replay가 적용된 DQN을 구현할 때 사용하게 됩니다.

PrioritizedExperienceReplay는 지금까지 DQN 에이전트를 학습시키는 데 사용하던 ExperienceReplay 클래스를 개선한 버전입니다. 우선순위 기반 경험 재생 버퍼는 균일 표본추출보다 에이전트가 학습하기 더 가치 있는 전이들이 선택되도록 보장해 줍니다.

이번에는 .__init__(), .push(), .update_priorities(), .increase_beta() 그리고 .__len__() 메서드를 구현하세요. 마지막 메서드인 .sample()은 다음 연습 문제에서 다룹니다.