1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie przez wzmacnianie z Gymnasium w Pythonie

Connected

ćwiczenie

Porównywanie polityk

Masz do dyspozycji dwie funkcje wartości stanów (value_function_1 i value_function_2) odpowiadające dwóm różnym politykom w środowisku MyGridWorld. Twoim zadaniem jest porównanie tych funkcji wartości stan po stanie, aby określić, która polityka jest skuteczniejsza.

Możesz korzystać ze zmiennej num_states.

Instrukcje

100 XP
  • Utwórz listę one_is_better wartości logicznych, gdzie każdy element sprawdza, czy wartość danego stanu w value_function_1 jest większa lub równa wartości tego stanu w value_function_2.
  • Utwórz listę two_is_better wartości logicznych, gdzie każdy element sprawdza, czy wartość danego stanu w value_function_2 jest większa lub równa wartości tego stanu w value_function_1.