Resolvendo o Frozen Lake 8x8 com SARSA
Neste exercício, você vai aplicar o algoritmo SARSA, incorporando a função update_q_table() que você implementou anteriormente, para aprender uma política ótima no ambiente Frozen Lake 8x8. Esse ambiente é idêntico ao clássico 4x4, com a única diferença de ser maior. Você usará o algoritmo SARSA para melhorar iterativamente a política do agente com base nas recompensas recebidas do ambiente.
Uma Q-table Q já foi inicializada e pré-carregada para você, junto com a função update_q_table() do exercício anterior.
Este exercício faz parte do curso
Reinforcement Learning com Gymnasium em Python
Instruções do exercício
- Para cada episódio do processo de treino, execute a
actionselecionada. - Escolha a
next_actionaleatoriamente. - Atualize a Q-table para o
statee aactionfornecidos.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
for episode in range(num_episodes):
state, info = env.reset()
action = env.action_space.sample()
terminated = False
while not terminated:
# Execute the action
next_state, reward, terminated, truncated, info = ____
# Choose the next action randomly
next_action = ____
# Update the Q-table
____
state, action = next_state, next_action
render_policy(get_policy())