Aprimorando uma política
No exercício anterior, você calculou os Q-values para cada par estado-ação no ambiente MyGridWorld. Agora, você vai usar esses Q-values para aprimorar a política existente. O aprimoramento de política é uma etapa fundamental em reinforcement learning: você melhora a política escolhendo, em cada estado, as ações que maximizam a utilidade esperada (Q-value). Depois de aprimorar a política, você vai renderizar os novos movimentos de acordo com essa política melhorada.
O ambiente foi importado como env, juntamente com os Q-values como Q, e a função render().
Este exercício faz parte do curso
Reinforcement Learning com Gymnasium em Python
Instruções do exercício
- Encontre a melhor ação para cada estado com base nos Q-values.
- Selecione a
actioncorreta com base naimproved_policy. - Execute a
actionselecionada para observar seu resultado.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
improved_policy = {}
for state in range(num_states-1):
# Find the best action for each state based on Q-values
max_action = ____
improved_policy[state] = max_action
terminated = False
while not terminated:
# Select action based on policy
action = ____
# Execute the action
state, reward, terminated, truncated, info = ____
render()