ComenzarEmpieza gratis

Cálculo de Q-values

Tu objetivo es calcular los valores de acción, también llamados Q-values, para cada par estado-acción en el entorno personalizado MyGridWorld siguiendo la política de abajo. En RL, los Q-values son esenciales porque representan la utilidad esperada de ejecutar una acción concreta en un estado dado, seguida del cumplimiento de la política.

exercise_policy.png

El entorno se ha importado como env junto con la función compute_state_value() y las variables necesarias (terminal_state, num_states, num_actions, policy, gamma).

Este ejercicio forma parte del curso

Reinforcement Learning con Gymnasium en Python

Ver curso

Instrucciones del ejercicio

  • Completa la función compute_q_value() para calcular el valor de acción de un state y action dados.
  • Crea un diccionario Q donde cada clave represente un par estado-acción y el valor correspondiente sea el Q-value de ese par.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Complete the function to compute the action-value for a state-action pair
def compute_q_value(state, action):
    if state == terminal_state:
        return None   
    probability, next_state, reward, done = ____
    return ____

# Compute Q-values for each state-action pair
Q = {(____, ____): _____ for ____ in range(____) for ____ in range(____)}

print(Q)
Editar y ejecutar código