1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

ćwiczenie

Obliczanie wartości stanów dla polityki

Pracując w tym samym deterministycznym środowisku MyGridWorld, oceń teraz skuteczność polityki zdefiniowanej w poprzednim ćwiczeniu. Zrobisz to, obliczając funkcję wartości stanu dla każdego stanu w ramach tej polityki.

Środowisko zostało zaimportowane jako env wraz z niezbędnymi zmiennymi (terminal_state, num_states, policy, gamma).

Instrukcje

100 XP
  • Uzupełnij funkcję compute_state_value(), aby obliczała wartość każdego stanu zgodnie z daną polityką.
  • Utwórz słownik state_values, w którym każdy klucz to state, a każda wartość to wartość tego stanu.