1. Learn
  2. /
  3. Cursuri
  4. /
  5. Reinforcement Learning cu Gymnasium în Python

Connected

exercițiu

Calcularea valorilor de stare pentru o politică

Folosind același mediu determinist MyGridWorld, trebuie acum să evaluezi eficiența politicii definite în exercițiul anterior. Vei face acest lucru calculând funcția de valoare a stării pentru fiecare stare sub această politică.

Mediul a fost importat ca env, împreună cu variabilele necesare (terminal_state, num_states, policy, gamma).

Instrucțiuni

100 XP
  • Completează funcția compute_state_value() pentru a calcula valoarea fiecărei stări sub politica dată.
  • Creează un dicționar state_values în care fiecare cheie este state, iar fiecare valoare este valoarea stării respective.