ComenzarEmpieza gratis

Calcular valores de estado para una política

Usando el mismo entorno determinista MyGridWorld, ahora necesitas evaluar la eficacia de la política que definiste en el ejercicio anterior. Lo harás calculando la función de valor de estado para cada estado bajo esta política.

El entorno se ha importado como env junto con las variables necesarias (terminal_state, num_states, policy, gamma).

Este ejercicio forma parte del curso

Reinforcement Learning con Gymnasium en Python

Ver curso

Instrucciones del ejercicio

  • Completa la función compute_state_value() para calcular el valor de cada estado bajo la política dada.
  • Crea un diccionario state_values donde cada clave sea el state y cada valor sea el valor del estado.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Complete the function
def compute_state_value(state):
    if state == terminal_state:
        return ____
    action = ____
    _, next_state, reward, _ = env.unwrapped.P[state][action][0]
    return ____

# Compute all state values 
state_values = {____: ____ for ____ in range(____)}

print(state_values)
Editar y ejecutar código