Generazione di episodi per i metodi Monte Carlo
I metodi Monte Carlo richiedono la generazione di episodi per poter ricavare la funzione di valore. Ora implementerai quindi una funzione che genera episodi selezionando azioni in modo casuale finché un episodio non termina. Negli esercizi successivi, chiamerai questa funzione per applicare i metodi Monte Carlo sull'ambiente personalizzato env già caricato per te.
La funzione render() è già disponibile.
Questo esercizio fa parte del corso
Reinforcement Learning con Gymnasium in Python
Istruzioni dell'esercizio
- Reimposta l'ambiente usando un
seedpari a 42. - Nel ciclo dell'episodio, seleziona a ogni iterazione un'
actioncasuale. - Una volta terminata un'iterazione, aggiorna i dati di
episodeaggiungendo la tupla(state, action, reward).
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
def generate_episode():
episode = []
# Reset the environment
state, info = ____
terminated = False
while not terminated:
# Select a random action
action = ____
next_state, reward, terminated, truncated, info = env.step(action)
render()
# Update episode data
episode.____(____)
state = next_state
return episode
print(generate_episode())