1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Deep Reinforcement Learning v Pythonu

Connected

cvičení

Architektura policy network

Sestav architekturu Policy Network, kterou později využiješ k trénování agenta metodou policy gradient.

Policy network přijímá stav prostředí jako vstup a na výstupu vrací pravděpodobnosti v prostoru akcí. V prostředí Lunar Lander pracuješ se čtyřmi diskrétními akcemi, takže síť má vracet pravděpodobnost pro každou z nich.

Pokyny

100 XP
  • Urči velikost výstupní vrstvy policy network; pro flexibilitu použij název proměnné místo konkrétního čísla.
  • Zajisti, aby poslední vrstva vracela pravděpodobnosti.