Episodes genereren voor Monte Carlo-methoden
Monte Carlo-methoden hebben gegenereerde episodes nodig om de waardefunctie af te leiden. Daarom ga je nu een functie implementeren die episodes genereert door willekeurig acties te kiezen totdat een episode eindigt. In latere oefeningen roep je deze functie aan om Monte Carlo-methoden toe te passen op de aangepaste omgeving env die alvast voor je is geladen.
De functie render() is alvast voor je geladen.
Deze oefening maakt deel uit van de cursus
Reinforcement Learning met Gymnasium in Python
Oefeninstructies
- Reset de omgeving met een
seedvan 42. - Kies in de episode-lus bij elke iteratie een willekeurige
action. - Zodra een iteratie eindigt, werk de
episode-data bij door de tuple(state, action, reward)toe te voegen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
def generate_episode():
episode = []
# Reset the environment
state, info = ____
terminated = False
while not terminated:
# Select a random action
action = ____
next_state, reward, terminated, truncated, info = env.step(action)
render()
# Update episode data
episode.____(____)
state = next_state
return episode
print(generate_episode())