cvičení

Výpočet hodnot stavů pro danou politiku

Ve stejném deterministickém prostředí MyGridWorld teď vyhodnotíš účinnost politiky, kterou jsi definoval/a v předchozím cvičení. Uděláš to výpočtem hodnotové funkce stavu pro každý stav podle této politiky.

Prostředí je importované jako env spolu s potřebnými proměnnými (terminal_state, num_states, policy, gamma).

Pokyny

100 XP

Dopleň funkci compute_state_value() tak, aby počítala hodnotu každého stavu podle zadané politiky.
Vytvoř slovník state_values, kde každý klíč odpovídá danému state a každá hodnota odpovídá hodnotě tohoto stavu.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení