1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

cvičení

Výpočet Q-hodnot

Tvým úkolem je vypočítat hodnoty akcí, známé také jako Q-hodnoty, pro každou dvojici stav–akce ve vlastním prostředí MyGridWorld při dodržování níže uvedené politiky. V RL jsou Q-hodnoty klíčové, protože vyjadřují očekávaný užitek provedení konkrétní akce v daném stavu, po níž agent dále sleduje danou politiku.

exercise_policy.png

Prostředí je importováno jako env spolu s funkcí compute_state_value() a potřebnými proměnnými (terminal_state, num_states, num_actions, policy, gamma).

Pokyny

100 XP
  • Dokonči funkci compute_q_value() tak, aby vypočítala hodnotu akce pro daný state a action.
  • Vytvoř slovník Q, kde každý klíč představuje dvojici stav–akce a odpovídající hodnota je Q-hodnota pro tuto dvojici.