1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Python으로 배우는 Deep Reinforcement Learning

Connected

Bài tập

우선순위 기반 경험 재생 버퍼

이제 PrioritizedExperienceReplay 클래스를 소개합니다. 이 자료구조는 이후에 Prioritized Experience Replay가 적용된 DQN을 구현할 때 사용하게 됩니다.

PrioritizedExperienceReplay는 지금까지 DQN 에이전트를 학습시키는 데 사용하던 ExperienceReplay 클래스를 개선한 버전입니다. 우선순위 기반 경험 재생 버퍼는 균일 표본추출보다 에이전트가 학습하기 더 가치 있는 전이들이 선택되도록 보장해 줍니다.

이번에는 .__init__(), .push(), .update_priorities(), .increase_beta() 그리고 .__len__() 메서드를 구현하세요. 마지막 메서드인 .sample()은 다음 연습 문제에서 다룹니다.

Hướng dẫn

100 XP
  • .push()에서는 전이의 우선순위를 버퍼의 최대 우선순위(버퍼가 비어 있으면 1)로 초기화하세요.
  • .update_priorities()에서는 해당 TD 오류의 절댓값에 self.epsilon을 더해 우선순위를 설정하세요. 이는 경계 사례를 처리하기 위함입니다.
  • .increase_beta()에서는 self.beta_increment만큼 beta를 증가시키되, beta가 1을 초과하지 않도록 하세요.