1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Deep Reinforcement Learning v Pythonu

Connected

cvičení

Výpočet ztrát Actor-Critic

Jako poslední krok před trénováním agenta pomocí A2C napiš funkci calculate_losses(), která vrátí ztráty obou sítí.

Pro přehled — tady jsou vzorce pro ztrátové funkce aktéra a kritika:

Pokyny

100 XP
  • Vypočítej TD target.
  • Vypočítej ztrátu sítě aktéra (Actor network).
  • Vypočítej ztrátu sítě kritika (Critic network).