DQN s prioritizovaným experience replay

V tomto cvičení zavedeme do algoritmu DQN Prioritized Experience Replay (PER), který optimalizuje výběr přechodů pro aktualizaci sítě v každém kroku.

Pro přehled – metody, které jsi deklaroval/a pro PrioritizedReplayBuffer, jsou:

push() (vkládání přechodů do bufferu)
sample() (výběr dávky přechodů z bufferu)
increase_beta() (zvýšení importance samplingu)
update_priorities() (aktualizace vzorkovaných priorit)

Funkce describe_episode() se opět používá k popisu každé epizody.

Vytvoř buffer Prioritized Experience Replay s kapacitou 10 000 přechodů.
Postupně zvyšuj vliv importance samplingu aktualizací parametru beta.
Aktualizuj priority vzorkovaných zkušeností na základě jejich nejnovější TD chyby.