1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Deep Reinforcement Learning v Pythonu

Connected

cvičení

Buffer pro experience replay

Teď vytvoříš datovou strukturu pro Experience Replay, která agentovi umožní učit se mnohem efektivněji.

Tento replay buffer by měl podporovat dvě operace:

  • Ukládání zkušeností do paměti pro pozdější výběr vzorků.
  • „Přehrání" náhodně vybraných minulých zkušeností z paměti.

Protože data odebraná z replay bufferu budou sloužit jako vstup do neuronové sítě, buffer by měl pro pohodlí vracet tensory knihovny torch.

Moduly torch a random a třída deque jsou v prostředí cvičení již naimportovány.

Pokyny

100 XP
  • Dokonči metodu push() třídy ReplayBuffer tak, že přidáš experience_tuple do paměti bufferu.
  • V metodě sample() vyber náhodný vzorek o velikosti batch_size z self.memory.
  • Stále v metodě sample() je vzorek zpočátku vrácen jako seznam n-tic; zajisti jeho převod na n-tici seznamů.
  • Transformuj actions_tensor do tvaru (batch_size, 1) místo (batch_size).