ComeçarComece de graça

Calculando valores de estado para uma política

Usando o mesmo ambiente determinístico MyGridWorld, agora você precisa avaliar a efetividade da política que definiu no exercício anterior. Você fará isso calculando a função de valor de estado para cada estado sob essa política.

O ambiente foi importado como env, junto com as variáveis necessárias (terminal_state, num_states, policy, gamma).

Este exercício faz parte do curso

Reinforcement Learning com Gymnasium em Python

Ver curso

Instruções do exercício

  • Complete a função compute_state_value() para calcular o valor de cada estado sob a política fornecida.
  • Crie um dicionário state_values em que cada chave seja o state e cada valor seja o valor do estado.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Complete the function
def compute_state_value(state):
    if state == terminal_state:
        return ____
    action = ____
    _, next_state, reward, _ = env.unwrapped.P[state][action][0]
    return ____

# Compute all state values 
state_values = {____: ____ for ____ in range(____)}

print(state_values)
Editar e executar o código