Calculando valores de estado para uma política
Usando o mesmo ambiente determinístico MyGridWorld, agora você precisa avaliar a efetividade da política que definiu no exercício anterior. Você fará isso calculando a função de valor de estado para cada estado sob essa política.
O ambiente foi importado como env, junto com as variáveis necessárias (terminal_state, num_states, policy, gamma).
Este exercício faz parte do curso
Reinforcement Learning com Gymnasium em Python
Instruções do exercício
- Complete a função
compute_state_value()para calcular o valor de cada estado sob a política fornecida. - Crie um dicionário
state_valuesem que cada chave seja ostatee cada valor seja o valor do estado.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Complete the function
def compute_state_value(state):
if state == terminal_state:
return ____
action = ____
_, next_state, reward, _ = env.unwrapped.P[state][action][0]
return ____
# Compute all state values
state_values = {____: ____ for ____ in range(____)}
print(state_values)