Generación de episodios para métodos Monte Carlo
Los métodos Monte Carlo necesitan generar episodios para derivar la función de valor. Por ello, ahora implementarás una función que genere episodios seleccionando acciones al azar hasta que el episodio termine. En ejercicios posteriores, llamarás a esta función para aplicar métodos Monte Carlo sobre el entorno personalizado env que ya está precargado.
La función render() ya está precargada para ti.
Este ejercicio forma parte del curso
Reinforcement Learning con Gymnasium en Python
Instrucciones del ejercicio
- Reinicia el entorno usando una
seedde 42. - En el bucle del episodio, selecciona una
actionaleatoria en cada iteración. - Cuando termine una iteración, actualiza los datos de
episodeañadiendo la tupla(state, action, reward).
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
def generate_episode():
episode = []
# Reset the environment
state, info = ____
terminated = False
while not terminated:
# Select a random action
action = ____
next_state, reward, terminated, truncated, info = env.step(action)
render()
# Update episode data
episode.____(____)
state = next_state
return episode
print(generate_episode())