1. Learn
  2. /
  3. Cursuri
  4. /
  5. Reinforcement Learning cu Gymnasium în Python

Connected

exercițiu

Calcularea valorilor Q

Scopul tău este să calculezi valorile de acțiune, cunoscute și sub denumirea de valori Q, pentru fiecare pereche stare-acțiune din mediul personalizat MyGridWorld, urmând politica de mai jos. În RL, valorile Q sunt esențiale deoarece reprezintă utilitatea așteptată a executării unei acțiuni specifice într-o stare dată, urmată de respectarea politicii.

exercise_policy.png

Mediul a fost importat ca env, împreună cu funcția compute_state_value() și variabilele necesare (terminal_state, num_states, num_actions, policy, gamma).

Instrucțiuni

100 XP
  • Completează funcția compute_q_value() pentru a calcula valoarea de acțiune pentru un state și o action date.
  • Creează un dicționar Q în care fiecare cheie reprezintă o pereche stare-acțiune, iar valoarea corespunzătoare este valoarea Q pentru acea pereche.