IniziaInizia gratis

Confrontare le policy

Ti vengono fornite due funzioni di valore di stato (value_function_1 e value_function_2) corrispondenti a due policy diverse nell'ambiente MyGridWorld. Il tuo compito è confrontare queste funzioni di valore di stato, stato per stato, per determinare quale policy è più efficace.

La variabile num_states è a tua disposizione.

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Crea una lista one_is_better di valori booleani, in cui ogni elemento verifica se il valore dello stato in value_function_1 è maggiore o uguale al valore dello stato in value_function_2.
  • Crea una lista two_is_better di valori booleani, in cui ogni elemento verifica se il valore dello stato in value_function_2 è maggiore o uguale al valore dello stato in value_function_1.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

value_function_1 = {0: 1, 1: 2, 2: 3, 3: 7, 4: 6, 5: 4, 6: 8, 7: 10, 8: 0}
value_function_2 = {0: 7, 1: 8, 2: 9, 3: 7, 4: 9, 5: 10, 6: 8, 7: 10, 8: 0}

# Check for each value in policy 1 if it is better than policy 2
one_is_better = [____ >= ____ for state in range(num_states)]

# Check for each value in policy 2 if it is better than policy 1
two_is_better = [____ >= ____ for state in range(num_states)]

if all(one_is_better):
  print("Policy 1 is better.")
elif all(two_is_better):
  print("Policy 2 is better.")
else:
  print("Neither policy is uniformly better across all states.")
Modifica ed esegui il codice