cvičení

Trénování algoritmu PPO

Teď použiješ známý trénovací cyklus A2C k trénování algoritmu PPO.

Tento cyklus nevyužívá naplno oříznutou náhradní účelovou funkci, takže by algoritmus neměl výrazně překonat A2C. Slouží jako ilustrace konceptů, které ses naučil/a kolem oříznuté náhradní funkce a entropického bonusu.

Pokyny

100 XP

Odeber entropický bonus ze ztráty aktéra a použij hodnotu 0,01 pro parametr \(c_{entropy}\).

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení