Tréninková smyčka DRL

Aby agent mohl prostředí opakovaně prozkoumávat, je potřeba nastavit tréninkovou smyčku.

Většina DRL algoritmů sdílí tuto základní strukturu:

Procházení epizodami
Procházení kroky v rámci každé epizody
V každém kroku vyber akci, vypočítej ztrátu a aktualizuj síť

Máš k dispozici zástupné funkce select_action() a calculate_loss(), které umožní kódu běžet. K dispozici jsou také Network a optimizer definované v předchozím cvičení.

Zajisti, aby vnější smyčka (přes epizody) proběhla celkem deset epizod.
Zajisti, aby vnitřní smyčka (přes kroky) běžela až do konce epizody.
Proveď akci vybranou funkcí select_action() v prostředí env.
Na konci každé iterace vnitřní smyčky aktualizuj stav před zahájením dalšího kroku.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení