1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

cvičení

Aplikace Double Q-learningu

V tomto cvičení aplikuješ algoritmus Double Q-learning ve stejném vlastním prostředí, které jsi vyřešil/a pomocí Expected SARSA – a porovnáš oba přístupy. Double Q-learning využívá dvě Q-tabulky, čímž snižuje zkreslení způsobené nadhodnocováním, které je typické pro klasický Q-learning, a přináší větší stabilitu učení oproti jiným metodám temporální diference. Pomocí této metody budeš navigovat agenta v mřížkovém prostředí s cílem dosáhnout co nejvyšší odměny – vyhýbat se horám a co nejrychleji dosáhnout cíle.

new_cust_env.png

Pokyny

100 XP
  • Aktualizuj Q-tabulky pomocí funkce update_q_tables(), kterou jsi napsal/a v předchozím cvičení.
  • Zkombinuj Q-tabulky jejich sečtením.