Resolver Frozen Lake 8x8 con SARSA
En este ejercicio aplicarás el algoritmo SARSA, incorporando la función update_q_table() que implementaste antes, para aprender una política óptima en el entorno Frozen Lake de 8x8. Este entorno es idéntico al clásico de 4x4, con la única diferencia de que es más grande. Usarás SARSA para mejorar iterativamente la política del agente según las recompensas que recibe del entorno.
Se ha inicializado y precargado para ti una Q-table Q, junto con la función update_q_table() del ejercicio anterior.
Este ejercicio forma parte del curso
Reinforcement Learning con Gymnasium en Python
Instrucciones del ejercicio
- Para cada episodio del proceso de entrenamiento, ejecuta la
actionseleccionada. - Elige la
next_actionde forma aleatoria. - Actualiza la Q-table para el
statey laactiondados.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
for episode in range(num_episodes):
state, info = env.reset()
action = env.action_space.sample()
terminated = False
while not terminated:
# Execute the action
next_state, reward, terminated, truncated, info = ____
# Choose the next action randomly
next_action = ____
# Update the Q-table
____
state, action = next_state, next_action
render_policy(get_policy())