1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

Cvičení

Aplikace algoritmu Expected SARSA

Teď aplikuješ algoritmus Expected SARSA ve vlastním prostředí, které vidíš níže. Cílem je navigovat agenta mřížkou tak, aby co nejrychleji dosáhl cíle. Platí stejná pravidla jako dříve: agent dostane odměnu +10 za dosažení diamantu, -2 za průchod horami a -1 za každý jiný stav.

new_cust_env.png

Prostředí je importováno jako env.

Pokyny

100 XP
  • Inicializuj Q-tabulku Q nulami pro každý pár stav–akce.
  • Aktualizuj Q-tabulku pomocí funkce update_q_table().
  • Extrahuj politiku jako slovník z naučené Q-tabulky.