1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Deep Reinforcement Learning v Pythonu

Connected

cvičení

Buffer pro Prioritized Experience Replay

Zavedeš třídu PrioritizedExperienceReplay – datovou strukturu, kterou později využiješ k implementaci DQN s Prioritized Experience Replay.

PrioritizedExperienceReplay je vylepšená verze třídy ExperienceReplay, kterou jsi dosud používal/a k trénování DQN agentů. Buffer s prioritizovaným přehráváním zkušeností zajišťuje, že vzorkované přechody jsou pro učení agenta cennější než při rovnoměrném vzorkování.

Zatím implementuj metody .__init__(), .push(), .update_priorities(), .increase_beta() a .__len__(). Poslední metodě, .sample(), se budeme věnovat v příštím cvičení.

Pokyny

100 XP
  • V .push() inicializuj prioritu přechodu na maximální prioritu v bufferu (nebo 1, pokud je buffer prázdný).
  • V .update_priorities() nastav prioritu na absolutní hodnotu odpovídající TD chyby a přičti self.epsilon pro ošetření krajních případů.
  • V .increase_beta() zvyš beta o self.beta_increment a zajisti, aby hodnota beta nikdy nepřekročila 1.