Učit se

/

Kurzy

/

Deep Reinforcement Learning v Pythonu

Connected

cvičení

Výpočet ztrát Actor-Critic

Jako poslední krok před trénováním agenta pomocí A2C napiš funkci calculate_losses(), která vrátí ztráty obou sítí.

Pro přehled — tady jsou vzorce pro ztrátové funkce aktéra a kritika:

Pokyny

100 XP

Vypočítej TD target.
Vypočítej ztrátu sítě aktéra (Actor network).
Vypočítej ztrátu sítě kritika (Critic network).