1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Deep Reinforcement Learning v Pythonu

Connected

cvičení

Trénování algoritmu A2C

Je čas natrénovat Lunar Lander pomocí algoritmu A2C! Máš k dispozici všechny stavební bloky – teď jde o to, složit je dohromady.

Sítě actor a critic jsou připravené jako actor a critic, stejně tak jejich optimalizátory actor_optimizer a critic_optimizer.

K dispozici máš i funkci select_action() z algoritmu REINFORCE a funkci calculate_losses() z předchozího cvičení.

Pokyny

100 XP
  • Nech actor vybrat akci na základě aktuálního stavu.
  • Vypočítej ztráty pro actor i critic.