ComeçarComece de graça

Resolvendo o Frozen Lake 8x8 com SARSA

Neste exercício, você vai aplicar o algoritmo SARSA, incorporando a função update_q_table() que você implementou anteriormente, para aprender uma política ótima no ambiente Frozen Lake 8x8. Esse ambiente é idêntico ao clássico 4x4, com a única diferença de ser maior. Você usará o algoritmo SARSA para melhorar iterativamente a política do agente com base nas recompensas recebidas do ambiente.

Uma Q-table Q já foi inicializada e pré-carregada para você, junto com a função update_q_table() do exercício anterior.

Este exercício faz parte do curso

Reinforcement Learning com Gymnasium em Python

Ver curso

Instruções do exercício

  • Para cada episódio do processo de treino, execute a action selecionada.
  • Escolha a next_action aleatoriamente.
  • Atualize a Q-table para o state e a action fornecidos.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

for episode in range(num_episodes):
    state, info = env.reset()
    action = env.action_space.sample()
    terminated = False
    while not terminated:
      	# Execute the action
        next_state, reward, terminated, truncated, info = ____
        # Choose the next action randomly
        next_action = ____
        # Update the Q-table
        ____
        state, action = next_state, next_action   
render_policy(get_policy())
Editar e executar o código