ComeçarComece de graça

Aprimorando uma política

No exercício anterior, você calculou os Q-values para cada par estado-ação no ambiente MyGridWorld. Agora, você vai usar esses Q-values para aprimorar a política existente. O aprimoramento de política é uma etapa fundamental em reinforcement learning: você melhora a política escolhendo, em cada estado, as ações que maximizam a utilidade esperada (Q-value). Depois de aprimorar a política, você vai renderizar os novos movimentos de acordo com essa política melhorada.

O ambiente foi importado como env, juntamente com os Q-values como Q, e a função render().

Este exercício faz parte do curso

Reinforcement Learning com Gymnasium em Python

Ver curso

Instruções do exercício

  • Encontre a melhor ação para cada estado com base nos Q-values.
  • Selecione a action correta com base na improved_policy.
  • Execute a action selecionada para observar seu resultado.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

improved_policy = {}

for state in range(num_states-1):
    # Find the best action for each state based on Q-values
    max_action = ____
    improved_policy[state] = max_action

terminated = False
while not terminated:
  # Select action based on policy 
  action = ____
  # Execute the action
  state, reward, terminated, truncated, info = ____
  render()
Editar e executar o código