Cálculo de Q-values
Tu objetivo es calcular los valores de acción, también llamados Q-values, para cada par estado-acción en el entorno personalizado MyGridWorld siguiendo la política de abajo. En RL, los Q-values son esenciales porque representan la utilidad esperada de ejecutar una acción concreta en un estado dado, seguida del cumplimiento de la política.

El entorno se ha importado como env junto con la función compute_state_value() y las variables necesarias (terminal_state, num_states, num_actions, policy, gamma).
Este ejercicio forma parte del curso
Reinforcement Learning con Gymnasium en Python
Instrucciones del ejercicio
- Completa la función
compute_q_value()para calcular el valor de acción de unstateyactiondados. - Crea un diccionario
Qdonde cada clave represente un par estado-acción y el valor correspondiente sea el Q-value de ese par.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Complete the function to compute the action-value for a state-action pair
def compute_q_value(state, action):
if state == terminal_state:
return None
probability, next_state, reward, done = ____
return ____
# Compute Q-values for each state-action pair
Q = {(____, ____): _____ for ____ in range(____) for ____ in range(____)}
print(Q)