1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Deep Reinforcement Learning v Pythonu

Connected

cvičení

Vytvoření instance Q-Network

Teď, když máš architekturu definovanou, můžeš vytvořit samotnou síť, kterou bude tvůj agent používat, a nastavit k ní optimalizátor. Prostředí Lunar Lander má stavový prostor o dimenzi 8 a akční prostor o dimenzi 4 (odpovídající akcím 0: do nothing, 1: left thruster, 2: main engine, 3: right thruster).

Třída QNetwork z předchozího cvičení je k dispozici.

Pokyny

100 XP
  • Vytvoř instanci Q-Network pro prostředí Lunar Lander.
  • Definuj optimalizátor Adam pro neuronovou síť a nastav rychlost učení na 0.0001.