Učit se

/

Kurzy

/

Deep Reinforcement Learning v Pythonu

Connected

cvičení

Trénování algoritmu A2C

Je čas natrénovat Lunar Lander pomocí algoritmu A2C! Máš k dispozici všechny stavební bloky – teď jde o to, složit je dohromady.

Sítě actor a critic jsou připravené jako actor a critic, stejně tak jejich optimalizátory actor_optimizer a critic_optimizer.

K dispozici máš i funkci select_action() z algoritmu REINFORCE a funkci calculate_losses() z předchozího cvičení.

Pokyny

100 XP

Nech actor vybrat akci na základě aktuálního stavu.
Vypočítej ztráty pro actor i critic.