ćwiczenie

Obliczanie wartości stanów dla polityki

Pracując w tym samym deterministycznym środowisku MyGridWorld, oceń teraz skuteczność polityki zdefiniowanej w poprzednim ćwiczeniu. Zrobisz to, obliczając funkcję wartości stanu dla każdego stanu w ramach tej polityki.

Środowisko zostało zaimportowane jako env wraz z niezbędnymi zmiennymi (terminal_state, num_states, policy, gamma).

Instrukcje

100 XP

Uzupełnij funkcję compute_state_value(), aby obliczała wartość każdego stanu zgodnie z daną polityką.
Utwórz słownik state_values, w którym każdy klucz to state, a każda wartość to wartość tego stanu.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie