cvičení

Architektura policy network

Sestav architekturu Policy Network, kterou později využiješ k trénování agenta metodou policy gradient.

Policy network přijímá stav prostředí jako vstup a na výstupu vrací pravděpodobnosti v prostoru akcí. V prostředí Lunar Lander pracuješ se čtyřmi diskrétními akcemi, takže síť má vracet pravděpodobnost pro každou z nich.

Pokyny

100 XP

Urči velikost výstupní vrstvy policy network; pro flexibilitu použij název proměnné místo konkrétního čísla.
Zajisti, aby poslední vrstva vracela pravděpodobnosti.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení