Vzorkování z PER bufferu

Než budeš moct použít třídu Prioritized Experience Buffer k trénování agenta, je potřeba ještě implementovat metodu .sample(). Tato metoda přijímá jako argument velikost vzorku, který chceš získat, a vrací vzorkované přechody jako tensors spolu s jejich indexy v paměťovém bufferu a jejich váhami důležitosti.

V prostředí máš předem připravený buffer s kapacitou 10, ze kterého budeš vzorkovat.