Geração de episódios para métodos de Monte Carlo
Os métodos de Monte Carlo precisam que episódios sejam gerados para obter a função valor. Por isso, você vai implementar uma função que gera episódios selecionando ações aleatórias até que o episódio termine. Nos exercícios seguintes, você chamará essa função para aplicar métodos de Monte Carlo no ambiente personalizado env já carregado para você.
A função render() já está disponível para você.
Este exercício faz parte do curso
Reinforcement Learning com Gymnasium em Python
Instruções do exercício
- Reinicie o ambiente usando um
seedde 42. - No loop do episódio, selecione uma
actionaleatória a cada iteração. - Ao final de cada iteração, atualize os dados do
episodeadicionando a tupla(state, action, reward).
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
def generate_episode():
episode = []
# Reset the environment
state, info = ____
terminated = False
while not terminated:
# Select a random action
action = ____
next_state, reward, terminated, truncated, info = env.step(action)
render()
# Update episode data
episode.____(____)
state = next_state
return episode
print(generate_episode())