1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

cvičení

Implementace value iteration

Value iteration je klíčová metoda v RL pro nalezení optimální politiky. Iterativně vylepšuje hodnotovou funkci pro každý stav, dokud se nekonverguje, čímž odhaluje optimální politiku. Začneš s inicializovanou hodnotovou funkcí V a policy, které jsou pro tebe předem načteny. Poté je budeš aktualizovat ve smyčce, dokud hodnotová funkce nekonverguje, a nakonec se podíváš, jak politika funguje v praxi.

Funkce get_max_action_and_value(state, V) je pro tebe předem načtena.

Pokyny

100 XP
  • Pro každý stav najdi akci s nejvyšší hodnotou Q (max_action) a její odpovídající hodnotu (max_q_value).
  • Aktualizuj slovník new_V a policy na základě max_action a max_q_value.
  • Zkontroluj konvergenci tak, že ověříš, zda je rozdíl mezi new_v a V pro každý stav menší než threshold.