Učit se

/

Kurzy

/

Deep Reinforcement Learning v Pythonu

Connected

cvičení

Oříznutý poměr pravděpodobností

Nyní implementuješ oříznutý poměr pravděpodobností, což je klíčová součást účelové funkce PPO.

Poměr pravděpodobností je definován jako: $$\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$$

A oříznutý poměr pravděpodobností je: \(\mathrm{clip}(r_t(\theta), 1-\varepsilon, 1+\varepsilon)\).

Pokyny

100 XP

Z action_log_prob získej pravděpodobnost akce prob a z action_log_prob_old získej prob_old.
Odpojenou starou log-pravděpodobnost akce odděl od grafu výpočtu gradientu v torch.
Vypočítej poměr pravděpodobností.
Aplikuj oříznutí (clipping) na náhradní účelovou funkci (surrogate objective).