exercițiu

Calcularea valorilor de stare pentru o politică

Folosind același mediu determinist MyGridWorld, trebuie acum să evaluezi eficiența politicii definite în exercițiul anterior. Vei face acest lucru calculând funcția de valoare a stării pentru fiecare stare sub această politică.

Mediul a fost importat ca env, împreună cu variabilele necesare (terminal_state, num_states, policy, gamma).

Instrucțiuni

100 XP

Completează funcția compute_state_value() pentru a calcula valoarea fiecărei stări sub politica dată.
Creează un dicționar state_values în care fiecare cheie este state, iar fiecare valoare este valoarea stării respective.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu