ComenzarEmpieza gratis

Resolver Frozen Lake 8x8 con SARSA

En este ejercicio aplicarás el algoritmo SARSA, incorporando la función update_q_table() que implementaste antes, para aprender una política óptima en el entorno Frozen Lake de 8x8. Este entorno es idéntico al clásico de 4x4, con la única diferencia de que es más grande. Usarás SARSA para mejorar iterativamente la política del agente según las recompensas que recibe del entorno.

Se ha inicializado y precargado para ti una Q-table Q, junto con la función update_q_table() del ejercicio anterior.

Este ejercicio forma parte del curso

Reinforcement Learning con Gymnasium en Python

Ver curso

Instrucciones del ejercicio

  • Para cada episodio del proceso de entrenamiento, ejecuta la action seleccionada.
  • Elige la next_action de forma aleatoria.
  • Actualiza la Q-table para el state y la action dados.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

for episode in range(num_episodes):
    state, info = env.reset()
    action = env.action_space.sample()
    terminated = False
    while not terminated:
      	# Execute the action
        next_state, reward, terminated, truncated, info = ____
        # Choose the next action randomly
        next_action = ____
        # Update the Q-table
        ____
        state, action = next_state, next_action   
render_policy(get_policy())
Editar y ejecutar código