Implementace value iteration

Value iteration je klíčová metoda v RL pro nalezení optimální politiky. Iterativně vylepšuje hodnotovou funkci pro každý stav, dokud se nekonverguje, čímž odhaluje optimální politiku. Začneš s inicializovanou hodnotovou funkcí V a policy, které jsou pro tebe předem načteny. Poté je budeš aktualizovat ve smyčce, dokud hodnotová funkce nekonverguje, a nakonec se podíváš, jak politika funguje v praxi.

Funkce get_max_action_and_value(state, V) je pro tebe předem načtena.

Pro každý stav najdi akci s nejvyšší hodnotou Q (max_action) a její odpovídající hodnotu (max_q_value).
Aktualizuj slovník new_V a policy na základě max_action a max_q_value.
Zkontroluj konvergenci tak, že ověříš, zda je rozdíl mezi new_v a V pro každý stav menší než threshold.

cvičení

Implementace value iteration

Pokyny

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení