1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Deep Reinforcement Learning v Pythonu

Connected

cvičení

A2C s dávkovými aktualizacemi

V tomto kurzu jsi zatím pracoval/a s různými variantami stejné základní tréninkové smyčky DRL. V praxi existuje řada způsobů, jak tuto strukturu rozšířit – například o dávkové aktualizace.

Vrátíme se k tréninkové smyčce A2C v prostředí Lunar Lander, ale tentokrát nebudeme sítě aktualizovat po každém kroku. Místo toho počkáme, dokud neproběhne 10 kroků, a teprve pak spustíme krok gradientního sestupu. Průměrováním ztrát přes 10 kroků dosáhneme o něco stabilnějších aktualizací.

Pokyny

100 XP
  • Přidej ztráty z každého kroku do tenzorů ztrát pro aktuální dávku.
  • Vypočítej ztráty pro celou dávku.
  • Znovu inicializuj tenzory ztrát.