1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Deep Reinforcement Learning v Pythonu

Connected

cvičení

Vzorkování z PER bufferu

Než budeš moct použít třídu Prioritized Experience Buffer k trénování agenta, je potřeba ještě implementovat metodu .sample(). Tato metoda přijímá jako argument velikost vzorku, který chceš získat, a vrací vzorkované přechody jako tensors spolu s jejich indexy v paměťovém bufferu a jejich váhami důležitosti.

V prostředí máš předem připravený buffer s kapacitou 10, ze kterého budeš vzorkovat.

Pokyny

100 XP
  • Vypočítej pravděpodobnost vzorkování přiřazenou každému přechodu.
  • Vyber indexy odpovídající přechodům ve vzorku; np.random.choice(a, s, p=p) vybere vzorek velikosti s s opakováním z pole a na základě pole pravděpodobností p.
  • Vypočítej váhu důležitosti přiřazenou každému přechodu.