1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Deep Reinforcement Learning v Pythonu

Connected

cvičení

Implementace kompletního algoritmu DQN

Ten okamžik konečně přišel! Všechny přípravy jsou hotové – teď implementuješ kompletní algoritmus DQN a použiješ ho k trénování agenta Lunar Lander. Tvůj algoritmus bude využívat nejen Experience Replay, ale také Decayed Epsilon-Greediness a Fixed Q-Targets.

K dispozici máš funkci select_action() implementující Decayed Epsilon Greediness a také funkci update_target_network() z předchozího cvičení. Zbývá už jen zapojit tyto funkce do trénovací smyčky DQN a zajistit, aby se cílová síť správně používala při výpočtu chybové funkce.

Budeš potřebovat nový čítač kroků total_steps, který slouží k postupnému snižování hodnoty \(\varepsilon\) v čase. Tato proměnná je pro tebe inicializována s hodnotou 0.

Pokyny

100 XP
  • Pomocí funkce select_action() implementuj Decayed Epsilon Greediness a vyber akci agenta; použij přitom total_steps – průběžný součet kroků napříč epizodami.
  • Před výpočtem TD targetu vypni sledování gradientů.
  • Po získání dalšího stavu načti Q-hodnoty pro tento stav.
  • Na konci každého kroku aktualizuj cílovou síť.