1. Learn
  2. /
  3. Cursuri
  4. /
  5. Reinforcement Learning cu Gymnasium în Python

Connected

exercițiu

Compararea politicilor

Ți se oferă două funcții de valoare a stărilor (value_function_1 și value_function_2) corespunzătoare a două politici diferite în mediul MyGridWorld. Sarcina ta este să compari aceste funcții de valoare stare cu stare, pentru a determina care politică este mai eficientă.

Variabila num_states îți este disponibilă pentru a o folosi.

Instrucțiuni

100 XP
  • Creează o listă one_is_better de valori booleene, în care fiecare element verifică dacă valoarea stării din value_function_1 este mai mare sau egală cu valoarea stării din value_function_2.
  • Creează o listă two_is_better de valori booleene, în care fiecare element verifică dacă valoarea stării din value_function_2 este mai mare sau egală cu valoarea stării din value_function_1.