1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Deep Reinforcement Learning v Pythonu

Connected

cvičení

Trénování základního DQN

Je čas natrénovat základní DQN algoritmus v prostředí Lunar Lander. Měj na paměti, že jde stále o holý algoritmus, takže výsledky nebudou oslnivé – ale later ho vylepšíme.

Ber to jako první krok na cestě k tomu, aby tvůj Lunar Lander přistál na Měsíci!

Instance q_network, kterou jsi definoval/a dříve, je ti k dispozici.

V průběhu cvičení v tomto kurzu je v tvém Pythoním prostředí dostupná také funkce describe_episode(), která na konci každé epizody vypíše informace o tom, jak si agent vedl.

Pokyny

100 XP
  • Zvol akci agenta ve vnitřní smyčce.
  • Vypočítej ztrátu (loss).
  • Proveď krok gradientního sestupu pro aktualizaci vah sítě.