IniziaInizia gratis

Generazione di episodi per i metodi Monte Carlo

I metodi Monte Carlo richiedono la generazione di episodi per poter ricavare la funzione di valore. Ora implementerai quindi una funzione che genera episodi selezionando azioni in modo casuale finché un episodio non termina. Negli esercizi successivi, chiamerai questa funzione per applicare i metodi Monte Carlo sull'ambiente personalizzato env già caricato per te.

La funzione render() è già disponibile.

Questo esercizio fa parte del corso

Reinforcement Learning con Gymnasium in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Reimposta l'ambiente usando un seed pari a 42.
  • Nel ciclo dell'episodio, seleziona a ogni iterazione un'action casuale.
  • Una volta terminata un'iterazione, aggiorna i dati di episode aggiungendo la tupla (state, action, reward).

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

def generate_episode():
    episode = []
    # Reset the environment
    state, info = ____
    terminated = False
    while not terminated:
      # Select a random action
      action = ____
      next_state, reward, terminated, truncated, info = env.step(action)
      render()
      # Update episode data
      episode.____(____)
      state = next_state
    return episode
print(generate_episode())
Modifica ed esegui il codice