Calcular valores de estado para una política
Usando el mismo entorno determinista MyGridWorld, ahora necesitas evaluar la eficacia de la política que definiste en el ejercicio anterior. Lo harás calculando la función de valor de estado para cada estado bajo esta política.
El entorno se ha importado como env junto con las variables necesarias (terminal_state, num_states, policy, gamma).
Este ejercicio forma parte del curso
Reinforcement Learning con Gymnasium en Python
Instrucciones del ejercicio
- Completa la función
compute_state_value()para calcular el valor de cada estado bajo la política dada. - Crea un diccionario
state_valuesdonde cada clave sea elstatey cada valor sea el valor del estado.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Complete the function
def compute_state_value(state):
if state == terminal_state:
return ____
action = ____
_, next_state, reward, _ = env.unwrapped.P[state][action][0]
return ____
# Compute all state values
state_values = {____: ____ for ____ in range(____)}
print(state_values)