Implementarea iterației valorii

Iterația valorii este o metodă esențială în RL pentru găsirea politicii optime. Aceasta îmbunătățește iterativ funcția de valoare pentru fiecare stare până când converge, ducând la descoperirea politicii optime. Vei porni de la o funcție de valoare V și o politică policy, ambele preîncărcate pentru tine. Apoi, le vei actualiza într-o buclă până când funcția de valoare converge și vei vedea politica în acțiune.

Funcția get_max_action_and_value(state, V) a fost preîncărcată pentru tine.

Pentru fiecare stare, găsește acțiunea cu valoarea Q maximă (max_action) și valoarea corespunzătoare acesteia (max_q_value).
Actualizează dicționarul new_V și politica policy pe baza max_action și max_q_value.
Verifică convergența prin compararea diferenței dintre new_v și V pentru fiecare stare cu pragul threshold.

exercițiu

Implementarea iterației valorii

Instrucțiuni

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu