Cvičení

Aktualizační pravidlo Expected SARSA

V tomto cvičení implementuješ aktualizační pravidlo Expected SARSA – temporálně-diferenční bezmodelový RL algoritmus. Expected SARSA odhaduje očekávanou hodnotu aktuální politiky průměrováním přes všechny možné akce, což zajišťuje stabilnější cílovou hodnotu aktualizace ve srovnání se SARSA. Vzorce používané v Expected SARSA najdeš níže.

Image showing the mathematical formula of the expected SARSA update rule.

Knihovna numpy je již naimportována jako np.

Pokyny

100 XP

Vypočítej očekávanou Q-hodnotu pro next_state.
Aktualizuj Q-hodnotu pro aktuální state a action pomocí vzorce Expected SARSA.
Aktualizuj Q-tabulku Q za předpokladu, že agent provede akci 1 ve stavu 2 a přejde do stavu 3, přičemž obdrží odměnu 5.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Cvičení

Pokyny

Cvičení