1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

ćwiczenie

Reguła aktualizacji Expected SARSA

W tym ćwiczeniu zaimplementujesz regułę aktualizacji Expected SARSA – opartego na różnicach czasowych algorytmu uczenia ze wzmocnieniem bez modelu środowiska. Expected SARSA szacuje oczekiwaną wartość bieżącej polityki, uśredniając ją po wszystkich możliwych akcjach. Dzięki temu cel aktualizacji jest bardziej stabilny niż w standardowym SARSA. Wzory stosowane w Expected SARSA znajdziesz poniżej.

Image showing the mathematical formula of the expected SARSA update rule.

Biblioteka numpy została zaimportowana jako np.

Instrukcje

100 XP
  • Oblicz oczekiwaną wartość Q dla next_state.
  • Zaktualizuj wartość Q dla bieżących state i action, korzystając ze wzoru Expected SARSA.
  • Zaktualizuj tablicę Q (Q), zakładając, że agent wykonuje akcję 1 w stanie 2 i przechodzi do stanu 3, otrzymując nagrodę 5.