Buffer pro experience replay

Teď vytvoříš datovou strukturu pro Experience Replay, která agentovi umožní učit se mnohem efektivněji.

Tento replay buffer by měl podporovat dvě operace:

Ukládání zkušeností do paměti pro pozdější výběr vzorků.
„Přehrání" náhodně vybraných minulých zkušeností z paměti.

Protože data odebraná z replay bufferu budou sloužit jako vstup do neuronové sítě, buffer by měl pro pohodlí vracet tensory knihovny torch.

Moduly torch a random a třída deque jsou v prostředí cvičení již naimportovány.

Dokonči metodu push() třídy ReplayBuffer tak, že přidáš experience_tuple do paměti bufferu.
V metodě sample() vyber náhodný vzorek o velikosti batch_size z self.memory.
Stále v metodě sample() je vzorek zpočátku vrácen jako seznam n-tic; zajisti jeho převod na n-tici seznamů.
Transformuj actions_tensor do tvaru (batch_size, 1) místo (batch_size).