1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Deep Reinforcement Learning v Pythonu

Connected

cvičení

DQN s prioritizovaným experience replay

V tomto cvičení zavedeme do algoritmu DQN Prioritized Experience Replay (PER), který optimalizuje výběr přechodů pro aktualizaci sítě v každém kroku.

Pro přehled – metody, které jsi deklaroval/a pro PrioritizedReplayBuffer, jsou:

  • push() (vkládání přechodů do bufferu)
  • sample() (výběr dávky přechodů z bufferu)
  • increase_beta() (zvýšení importance samplingu)
  • update_priorities() (aktualizace vzorkovaných priorit)

Funkce describe_episode() se opět používá k popisu každé epizody.

Pokyny

100 XP
  • Vytvoř buffer Prioritized Experience Replay s kapacitou 10 000 přechodů.
  • Postupně zvyšuj vliv importance samplingu aktualizací parametru beta.
  • Aktualizuj priority vzorkovaných zkušeností na základě jejich nejnovější TD chyby.