cvičení

Porovnání politik

Máš k dispozici dvě stavové hodnotové funkce (value_function_1 a value_function_2), které odpovídají dvěma různým politikám v prostředí MyGridWorld. Tvým úkolem je porovnat tyto stavové hodnotové funkce stav po stavu a zjistit, která politika je efektivnější.

Proměnná num_states je připravena k použití.

Pokyny

100 XP

Vytvoř seznam one_is_better s booleovskými hodnotami, kde každý prvek ověřuje, zda je hodnota daného stavu ve value_function_1 větší nebo rovna hodnotě téhož stavu ve value_function_2.
Vytvoř seznam two_is_better s booleovskými hodnotami, kde každý prvek ověřuje, zda je hodnota daného stavu ve value_function_2 větší nebo rovna hodnotě téhož stavu ve value_function_1.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení