Risolvi Frozen Lake 8x8 con SARSA
In questo esercizio applicherai l'algoritmo SARSA, includendo la funzione update_q_table() che hai implementato in precedenza, per apprendere una politica ottimale nell'ambiente Frozen Lake 8x8. Questo ambiente è identico al classico 4x4, con l'unica differenza che è più grande. Userai SARSA per migliorare iterativamente la politica dell'agente in base alle ricompense ricevute dall'ambiente.
Una Q-table Q è stata inizializzata e precaricata per te, insieme alla funzione update_q_table() dell'esercizio precedente.
Questo esercizio fa parte del corso
Reinforcement Learning con Gymnasium in Python
Istruzioni dell'esercizio
- Per ogni episodio del processo di training esegui l'
actionselezionata. - Scegli casualmente la
next_action. - Aggiorna la Q-table per lo specifico
stateeaction.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
for episode in range(num_episodes):
state, info = env.reset()
action = env.action_space.sample()
terminated = False
while not terminated:
# Execute the action
next_state, reward, terminated, truncated, info = ____
# Choose the next action randomly
next_action = ____
# Update the Q-table
____
state, action = next_state, next_action
render_policy(get_policy())