1. Learn
  2. /
  3. Cursuri
  4. /
  5. Reinforcement Learning cu Gymnasium în Python

Connected

exercițiu

Implementarea iterației valorii

Iterația valorii este o metodă esențială în RL pentru găsirea politicii optime. Aceasta îmbunătățește iterativ funcția de valoare pentru fiecare stare până când converge, ducând la descoperirea politicii optime. Vei porni de la o funcție de valoare V și o politică policy, ambele preîncărcate pentru tine. Apoi, le vei actualiza într-o buclă până când funcția de valoare converge și vei vedea politica în acțiune.

Funcția get_max_action_and_value(state, V) a fost preîncărcată pentru tine.

Instrucțiuni

100 XP
  • Pentru fiecare stare, găsește acțiunea cu valoarea Q maximă (max_action) și valoarea corespunzătoare acesteia (max_q_value).
  • Actualizează dicționarul new_V și politica policy pe baza max_action și max_q_value.
  • Verifică convergența prin compararea diferenței dintre new_v și V pentru fiecare stare cu pragul threshold.