Implementace kompletního algoritmu DQN

Ten okamžik konečně přišel! Všechny přípravy jsou hotové – teď implementuješ kompletní algoritmus DQN a použiješ ho k trénování agenta Lunar Lander. Tvůj algoritmus bude využívat nejen Experience Replay, ale také Decayed Epsilon-Greediness a Fixed Q-Targets.

K dispozici máš funkci select_action() implementující Decayed Epsilon Greediness a také funkci update_target_network() z předchozího cvičení. Zbývá už jen zapojit tyto funkce do trénovací smyčky DQN a zajistit, aby se cílová síť správně používala při výpočtu chybové funkce.

Budeš potřebovat nový čítač kroků total_steps, který slouží k postupnému snižování hodnoty \(\varepsilon\) v čase. Tato proměnná je pro tebe inicializována s hodnotou 0.

Pomocí funkce select_action() implementuj Decayed Epsilon Greediness a vyber akci agenta; použij přitom total_steps – průběžný součet kroků napříč epizodami.
Před výpočtem TD targetu vypni sledování gradientů.
Po získání dalšího stavu načti Q-hodnoty pro tento stav.
Na konci každého kroku aktualizuj cílovou síť.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení