Cvičení

Oříznutá náhradní objektivní funkce

Implementuj funkci calculate_loss() pro PPO. Budeš potřebovat zakódovat klíčovou inovaci PPO – oříznutou náhradní ztrátovou funkci (clipped surrogate loss). Ta pomáhá omezit aktualizaci politiky tak, aby se v každém kroku příliš nevzdálila od předchozí politiky.

Vzorec pro oříznutý náhradní cíl je:

Hyperparametr ořezávání epsilon je v tvém prostředí nastaven na hodnotu 0,2.

Pokyny

100 XP

Získej poměry pravděpodobností mezi \pi_\theta a \pi_{\theta_{old}} (neoříznutou i oříznutou verzi).
Vypočítej náhradní cíle (neoříznutou i oříznutou verzi).
Vypočítej oříznutý náhradní cíl PPO.
Vypočítej ztrátovou funkci aktora.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Cvičení

Pokyny

Cvičení