1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Deep Reinforcement Learning v Pythonu

Connected

cvičení

Oříznutý poměr pravděpodobností

Nyní implementuješ oříznutý poměr pravděpodobností, což je klíčová součást účelové funkce PPO.

Poměr pravděpodobností je definován jako: $$\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$$

A oříznutý poměr pravděpodobností je: \(\mathrm{clip}(r_t(\theta), 1-\varepsilon, 1+\varepsilon)\).

Pokyny

100 XP
  • Z action_log_prob získej pravděpodobnost akce prob a z action_log_prob_old získej prob_old.
  • Odpojenou starou log-pravděpodobnost akce odděl od grafu výpočtu gradientu v torch.
  • Vypočítej poměr pravděpodobností.
  • Aplikuj oříznutí (clipping) na náhradní účelovou funkci (surrogate objective).