Aan de slagGa gratis aan de slag

Episodes genereren voor Monte Carlo-methoden

Monte Carlo-methoden hebben gegenereerde episodes nodig om de waardefunctie af te leiden. Daarom ga je nu een functie implementeren die episodes genereert door willekeurig acties te kiezen totdat een episode eindigt. In latere oefeningen roep je deze functie aan om Monte Carlo-methoden toe te passen op de aangepaste omgeving env die alvast voor je is geladen.

De functie render() is alvast voor je geladen.

Deze oefening maakt deel uit van de cursus

Reinforcement Learning met Gymnasium in Python

Cursus bekijken

Oefeninstructies

  • Reset de omgeving met een seed van 42.
  • Kies in de episode-lus bij elke iteratie een willekeurige action.
  • Zodra een iteratie eindigt, werk de episode-data bij door de tuple (state, action, reward) toe te voegen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

def generate_episode():
    episode = []
    # Reset the environment
    state, info = ____
    terminated = False
    while not terminated:
      # Select a random action
      action = ____
      next_state, reward, terminated, truncated, info = env.step(action)
      render()
      # Update episode data
      episode.____(____)
      state = next_state
    return episode
print(generate_episode())
Code bewerken en uitvoeren