Výpočet Q-hodnot

Tvým úkolem je vypočítat hodnoty akcí, známé také jako Q-hodnoty, pro každou dvojici stav–akce ve vlastním prostředí MyGridWorld při dodržování níže uvedené politiky. V RL jsou Q-hodnoty klíčové, protože vyjadřují očekávaný užitek provedení konkrétní akce v daném stavu, po níž agent dále sleduje danou politiku.

Prostředí je importováno jako env spolu s funkcí compute_state_value() a potřebnými proměnnými (terminal_state, num_states, num_actions, policy, gamma).

Dokonči funkci compute_q_value() tak, aby vypočítala hodnotu akce pro daný state a action.
Vytvoř slovník Q, kde každý klíč představuje dvojici stav–akce a odpovídající hodnota je Q-hodnota pro tuto dvojici.

cvičení

Výpočet Q-hodnot

Pokyny

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení