Reguła aktualizacji Expected SARSA

W tym ćwiczeniu zaimplementujesz regułę aktualizacji Expected SARSA – opartego na różnicach czasowych algorytmu uczenia ze wzmocnieniem bez modelu środowiska. Expected SARSA szacuje oczekiwaną wartość bieżącej polityki, uśredniając ją po wszystkich możliwych akcjach. Dzięki temu cel aktualizacji jest bardziej stabilny niż w standardowym SARSA. Wzory stosowane w Expected SARSA znajdziesz poniżej.

Image showing the mathematical formula of the expected SARSA update rule.

Biblioteka numpy została zaimportowana jako np.

Oblicz oczekiwaną wartość Q dla next_state.
Zaktualizuj wartość Q dla bieżących state i action, korzystając ze wzoru Expected SARSA.
Zaktualizuj tablicę Q (Q), zakładając, że agent wykonuje akcję 1 w stanie 2 i przechodzi do stanu 3, otrzymując nagrodę 5.

ćwiczenie

Reguła aktualizacji Expected SARSA

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie