ComenzarEmpieza gratis

Generación de episodios para métodos Monte Carlo

Los métodos Monte Carlo necesitan generar episodios para derivar la función de valor. Por ello, ahora implementarás una función que genere episodios seleccionando acciones al azar hasta que el episodio termine. En ejercicios posteriores, llamarás a esta función para aplicar métodos Monte Carlo sobre el entorno personalizado env que ya está precargado.

La función render() ya está precargada para ti.

Este ejercicio forma parte del curso

Reinforcement Learning con Gymnasium en Python

Ver curso

Instrucciones del ejercicio

  • Reinicia el entorno usando una seed de 42.
  • En el bucle del episodio, selecciona una action aleatoria en cada iteración.
  • Cuando termine una iteración, actualiza los datos de episode añadiendo la tupla (state, action, reward).

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

def generate_episode():
    episode = []
    # Reset the environment
    state, info = ____
    terminated = False
    while not terminated:
      # Select a random action
      action = ____
      next_state, reward, terminated, truncated, info = env.step(action)
      render()
      # Update episode data
      episode.____(____)
      state = next_state
    return episode
print(generate_episode())
Editar y ejecutar código