1. Learn
  2. /
  3. Courses
  4. /
  5. Deep Reinforcement Learning v Pythonu

Connected

Exercise

Oříznutá náhradní objektivní funkce

Implementuj funkci calculate_loss() pro PPO. Budeš potřebovat zakódovat klíčovou inovaci PPO – oříznutou náhradní ztrátovou funkci (clipped surrogate loss). Ta pomáhá omezit aktualizaci politiky tak, aby se v každém kroku příliš nevzdálila od předchozí politiky.

Vzorec pro oříznutý náhradní cíl je:

Hyperparametr ořezávání epsilon je v tvém prostředí nastaven na hodnotu 0,2.

Instructions

100 XP
  • Získej poměry pravděpodobností mezi \pi_\theta a \pi_{\theta_{old}} (neoříznutou i oříznutou verzi).
  • Vypočítej náhradní cíle (neoříznutou i oříznutou verzi).
  • Vypočítej oříznutý náhradní cíl PPO.
  • Vypočítej ztrátovou funkci aktora.