ComeçarComece de graça

Geração de episódios para métodos de Monte Carlo

Os métodos de Monte Carlo precisam que episódios sejam gerados para obter a função valor. Por isso, você vai implementar uma função que gera episódios selecionando ações aleatórias até que o episódio termine. Nos exercícios seguintes, você chamará essa função para aplicar métodos de Monte Carlo no ambiente personalizado env já carregado para você.

A função render() já está disponível para você.

Este exercício faz parte do curso

Reinforcement Learning com Gymnasium em Python

Ver curso

Instruções do exercício

  • Reinicie o ambiente usando um seed de 42.
  • No loop do episódio, selecione uma action aleatória a cada iteração.
  • Ao final de cada iteração, atualize os dados do episode adicionando a tupla (state, action, reward).

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

def generate_episode():
    episode = []
    # Reset the environment
    state, info = ____
    terminated = False
    while not terminated:
      # Select a random action
      action = ____
      next_state, reward, terminated, truncated, info = env.step(action)
      render()
      # Update episode data
      episode.____(____)
      state = next_state
    return episode
print(generate_episode())
Editar e executar o código