IniziaInizia gratis

Risolvi Frozen Lake 8x8 con SARSA

In questo esercizio applicherai l'algoritmo SARSA, includendo la funzione update_q_table() che hai implementato in precedenza, per apprendere una politica ottimale nell'ambiente Frozen Lake 8x8. Questo ambiente è identico al classico 4x4, con l'unica differenza che è più grande. Userai SARSA per migliorare iterativamente la politica dell'agente in base alle ricompense ricevute dall'ambiente.

Una Q-table Q è stata inizializzata e precaricata per te, insieme alla funzione update_q_table() dell'esercizio precedente.

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Per ogni episodio del processo di training esegui l'action selezionata.
  • Scegli casualmente la next_action.
  • Aggiorna la Q-table per lo specifico state e action.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

for episode in range(num_episodes):
    state, info = env.reset()
    action = env.action_space.sample()
    terminated = False
    while not terminated:
      	# Execute the action
        next_state, reward, terminated, truncated, info = ____
        # Choose the next action randomly
        next_action = ____
        # Update the Q-table
        ____
        state, action = next_state, next_action   
render_policy(get_policy())
Modifica ed esegui il codice