1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning with Gymnasium in Python

Connected

cvičení

Porovnání politik

Máš k dispozici dvě stavové hodnotové funkce (value_function_1 a value_function_2), které odpovídají dvěma různým politikám v prostředí MyGridWorld. Tvým úkolem je porovnat tyto stavové hodnotové funkce stav po stavu a zjistit, která politika je efektivnější.

Proměnná num_states je připravena k použití.

Pokyny

100 XP
  • Vytvoř seznam one_is_better s booleovskými hodnotami, kde každý prvek ověřuje, zda je hodnota daného stavu ve value_function_1 větší nebo rovna hodnotě téhož stavu ve value_function_2.
  • Vytvoř seznam two_is_better s booleovskými hodnotami, kde každý prvek ověřuje, zda je hodnota daného stavu ve value_function_2 větší nebo rovna hodnotě téhož stavu ve value_function_1.