1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Deep Reinforcement Learning v Pythonu

Connected

cvičení

Trénování algoritmu PPO

Teď použiješ známý trénovací cyklus A2C k trénování algoritmu PPO.

Tento cyklus nevyužívá naplno oříznutou náhradní účelovou funkci, takže by algoritmus neměl výrazně překonat A2C. Slouží jako ilustrace konceptů, které ses naučil/a kolem oříznuté náhradní funkce a entropického bonusu.

Pokyny

100 XP
  • Odeber entropický bonus ze ztráty aktéra a použij hodnotu 0,01 pro parametr \(c_{entropy}\).