cvičení

Trénování základního DQN

Je čas natrénovat základní DQN algoritmus v prostředí Lunar Lander. Měj na paměti, že jde stále o holý algoritmus, takže výsledky nebudou oslnivé – ale later ho vylepšíme.

Ber to jako první krok na cestě k tomu, aby tvůj Lunar Lander přistál na Měsíci!

Instance q_network, kterou jsi definoval/a dříve, je ti k dispozici.

V průběhu cvičení v tomto kurzu je v tvém Pythoním prostředí dostupná také funkce describe_episode(), která na konci každé epizody vypíše informace o tom, jak si agent vedl.

Pokyny

100 XP

Zvol akci agenta ve vnitřní smyčce.
Vypočítej ztrátu (loss).
Proveď krok gradientního sestupu pro aktualizaci vah sítě.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení