1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

Cvičení

Aktualizační pravidlo Expected SARSA

V tomto cvičení implementuješ aktualizační pravidlo Expected SARSA – temporálně-diferenční bezmodelový RL algoritmus. Expected SARSA odhaduje očekávanou hodnotu aktuální politiky průměrováním přes všechny možné akce, což zajišťuje stabilnější cílovou hodnotu aktualizace ve srovnání se SARSA. Vzorce používané v Expected SARSA najdeš níže.

Image showing the mathematical formula of the expected SARSA update rule.

Knihovna numpy je již naimportována jako np.

Pokyny

100 XP
  • Vypočítej očekávanou Q-hodnotu pro next_state.
  • Aktualizuj Q-hodnotu pro aktuální state a action pomocí vzorce Expected SARSA.
  • Aktualizuj Q-tabulku Q za předpokladu, že agent provede akci 1 ve stavu 2 a přejde do stavu 3, přičemž obdrží odměnu 5.