1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Deep Reinforcement Learning v Pythonu

Connected

cvičení

Tréninková smyčka DRL

Aby agent mohl prostředí opakovaně prozkoumávat, je potřeba nastavit tréninkovou smyčku.

Většina DRL algoritmů sdílí tuto základní strukturu:

  1. Procházení epizodami
  2. Procházení kroky v rámci každé epizody
  3. V každém kroku vyber akci, vypočítej ztrátu a aktualizuj síť

Máš k dispozici zástupné funkce select_action() a calculate_loss(), které umožní kódu běžet. K dispozici jsou také Network a optimizer definované v předchozím cvičení.

Pokyny

100 XP
  • Zajisti, aby vnější smyčka (přes epizody) proběhla celkem deset epizod.
  • Zajisti, aby vnitřní smyčka (přes kroky) běžela až do konce epizody.
  • Proveď akci vybranou funkcí select_action() v prostředí env.
  • Na konci každé iterace vnitřní smyčky aktualizuj stav před zahájením dalšího kroku.