Calculando valores-Q
Seu objetivo é calcular os valores de ação, também conhecidos como valores-Q, para cada par estado-ação no ambiente personalizado MyGridWorld ao seguir a política abaixo. Em RL, os valores-Q são essenciais porque representam a utilidade esperada de executar uma ação específica em um determinado estado, seguida da adesão à política.

O ambiente foi importado como env, junto com a função compute_state_value() e as variáveis necessárias (terminal_state, num_states, num_actions, policy, gamma).
Este exercício faz parte do curso
Reinforcement Learning com Gymnasium em Python
Instruções do exercício
- Complete a função
compute_q_value()para calcular o valor de ação para umstateeactiondados. - Crie um dicionário
Qem que cada chave representa um par estado-ação e o valor correspondente é o valor-Q desse par.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Complete the function to compute the action-value for a state-action pair
def compute_q_value(state, action):
if state == terminal_state:
return None
probability, next_state, reward, done = ____
return ____
# Compute Q-values for each state-action pair
Q = {(____, ____): _____ for ____ in range(____) for ____ in range(____)}
print(Q)