cvičení

Trénování double DQN

Nyní upravíš svůj kód pro DQN tak, aby implementoval double DQN.

Double DQN vyžaduje jen minimální úpravu algoritmu DQN, ale výrazně přispívá k řešení problému nadhodnocování Q-hodnot a often překonává výkonnost klasického DQN.

Pokyny

100 XP

Vypočítej příští akce pro výpočet Q-targetu pomocí online_network() – dbej na to, aby výsledná akce i její tvar byly správné.
Odhadni Q-hodnoty pro tyto akce pomocí target_network() – opět se ujisti, že získáváš správné hodnoty ve správném tvaru.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení