1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

cvičení

Výpočet hodnot stavů pro danou politiku

Ve stejném deterministickém prostředí MyGridWorld teď vyhodnotíš účinnost politiky, kterou jsi definoval/a v předchozím cvičení. Uděláš to výpočtem hodnotové funkce stavu pro každý stav podle této politiky.

Prostředí je importované jako env spolu s potřebnými proměnnými (terminal_state, num_states, policy, gamma).

Pokyny

100 XP
  • Dopleň funkci compute_state_value() tak, aby počítala hodnotu každého stavu podle zadané politiky.
  • Vytvoř slovník state_values, kde každý klíč odpovídá danému state a každá hodnota odpovídá hodnotě tohoto stavu.