Comparar políticas
Se te proporcionan dos funciones de valor de estado (value_function_1 y value_function_2) que corresponden a dos políticas diferentes en el entorno MyGridWorld. Tu tarea es comparar estas funciones de valor de estado estado por estado para determinar qué política es más efectiva.
La variable num_states está disponible para que la utilices.
Este ejercicio forma parte del curso
Reinforcement Learning con Gymnasium en Python
Instrucciones del ejercicio
- Crea una lista
one_is_betterde valores booleanos, donde cada elemento compruebe si el valor del estado envalue_function_1es mayor o igual que el valor del estado envalue_function_2. - Crea una lista
two_is_betterde valores booleanos, donde cada elemento compruebe si el valor del estado envalue_function_2es mayor o igual que el valor del estado envalue_function_1.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
value_function_1 = {0: 1, 1: 2, 2: 3, 3: 7, 4: 6, 5: 4, 6: 8, 7: 10, 8: 0}
value_function_2 = {0: 7, 1: 8, 2: 9, 3: 7, 4: 9, 5: 10, 6: 8, 7: 10, 8: 0}
# Check for each value in policy 1 if it is better than policy 2
one_is_better = [____ >= ____ for state in range(num_states)]
# Check for each value in policy 2 if it is better than policy 1
two_is_better = [____ >= ____ for state in range(num_states)]
if all(one_is_better):
print("Policy 1 is better.")
elif all(two_is_better):
print("Policy 2 is better.")
else:
print("Neither policy is uniformly better across all states.")