Calcularea valorilor Q

Scopul tău este să calculezi valorile de acțiune, cunoscute și sub denumirea de valori Q, pentru fiecare pereche stare-acțiune din mediul personalizat MyGridWorld, urmând politica de mai jos. În RL, valorile Q sunt esențiale deoarece reprezintă utilitatea așteptată a executării unei acțiuni specifice într-o stare dată, urmată de respectarea politicii.

Mediul a fost importat ca env, împreună cu funcția compute_state_value() și variabilele necesare (terminal_state, num_states, num_actions, policy, gamma).

Completează funcția compute_q_value() pentru a calcula valoarea de acțiune pentru un state și o action date.
Creează un dicționar Q în care fiecare cheie reprezintă o pereche stare-acțiune, iar valoarea corespunzătoare este valoarea Q pentru acea pereche.

exercițiu

Calcularea valorilor Q

Instrucțiuni

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu