cvičení

Aplikace Double Q-learningu

V tomto cvičení aplikuješ algoritmus Double Q-learning ve stejném vlastním prostředí, které jsi vyřešil/a pomocí Expected SARSA – a porovnáš oba přístupy. Double Q-learning využívá dvě Q-tabulky, čímž snižuje zkreslení způsobené nadhodnocováním, které je typické pro klasický Q-learning, a přináší větší stabilitu učení oproti jiným metodám temporální diference. Pomocí této metody budeš navigovat agenta v mřížkovém prostředí s cílem dosáhnout co nejvyšší odměny – vyhýbat se horám a co nejrychleji dosáhnout cíle.

Pokyny

100 XP

Aktualizuj Q-tabulky pomocí funkce update_q_tables(), kterou jsi napsal/a v předchozím cvičení.
Zkombinuj Q-tabulky jejich sečtením.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení