ComeçarComece de graça

Calculando valores-Q

Seu objetivo é calcular os valores de ação, também conhecidos como valores-Q, para cada par estado-ação no ambiente personalizado MyGridWorld ao seguir a política abaixo. Em RL, os valores-Q são essenciais porque representam a utilidade esperada de executar uma ação específica em um determinado estado, seguida da adesão à política.

exercise_policy.png

O ambiente foi importado como env, junto com a função compute_state_value() e as variáveis necessárias (terminal_state, num_states, num_actions, policy, gamma).

Este exercício faz parte do curso

Reinforcement Learning com Gymnasium em Python

Ver curso

Instruções do exercício

  • Complete a função compute_q_value() para calcular o valor de ação para um state e action dados.
  • Crie um dicionário Q em que cada chave representa um par estado-ação e o valor correspondente é o valor-Q desse par.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Complete the function to compute the action-value for a state-action pair
def compute_q_value(state, action):
    if state == terminal_state:
        return None   
    probability, next_state, reward, done = ____
    return ____

# Compute Q-values for each state-action pair
Q = {(____, ____): _____ for ____ in range(____) for ____ in range(____)}

print(Q)
Editar e executar o código