1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

ćwiczenie

Obliczanie wartości Q

Twoim celem jest obliczenie wartości akcji, zwanych wartościami Q, dla każdej pary stan-akcja w niestandardowym środowisku MyGridWorld przy zastosowaniu poniższej polityki. W uczeniu ze wzmocnieniem wartości Q są kluczowe – reprezentują oczekiwaną użyteczność wykonania określonej akcji w danym stanie, po której agent postępuje zgodnie z polityką.

exercise_policy.png

Środowisko zostało zaimportowane jako env wraz z funkcją compute_state_value() oraz niezbędnymi zmiennymi (terminal_state, num_states, num_actions, policy, gamma).

Instrukcje

100 XP
  • Uzupełnij funkcję compute_q_value(), aby obliczała wartość akcji dla podanego stanu state i akcji action.
  • Utwórz słownik Q, w którym każdy klucz reprezentuje parę stan-akcja, a odpowiadająca mu wartość to wartość Q dla tej pary.