Buffer pro Prioritized Experience Replay

Zavedeš třídu PrioritizedExperienceReplay – datovou strukturu, kterou později využiješ k implementaci DQN s Prioritized Experience Replay.

PrioritizedExperienceReplay je vylepšená verze třídy ExperienceReplay, kterou jsi dosud používal/a k trénování DQN agentů. Buffer s prioritizovaným přehráváním zkušeností zajišťuje, že vzorkované přechody jsou pro učení agenta cennější než při rovnoměrném vzorkování.

Zatím implementuj metody .__init__(), .push(), .update_priorities(), .increase_beta() a .__len__(). Poslední metodě, .sample(), se budeme věnovat v příštím cvičení.

V .push() inicializuj prioritu přechodu na maximální prioritu v bufferu (nebo 1, pokud je buffer prázdný).
V .update_priorities() nastav prioritu na absolutní hodnotu odpovídající TD chyby a přičti self.epsilon pro ošetření krajních případů.
V .increase_beta() zvyš beta o self.beta_increment a zajisti, aby hodnota beta nikdy nepřekročila 1.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení