ComeçarComece de graça

Treinamento do algoritmo A2C

É hora de treinar nosso Lunar Lander usando o algoritmo A2C! Você tem todos os blocos de construção, agora é só juntar tudo.

As redes de atores e críticos foram instanciadas como actore critic, assim como seus otimizadores actor_optimizer e critic_optimizer.

A função REINFORCE select_action() e a função calculate_losses() do exercício anterior também estão disponíveis para você usar aqui.

Este exercício faz parte do curso

Aprendizado por reforço profundo em Python

Ver curso

Instruções do exercício

  • Permita que o ator selecione a ação, dado o estado.
  • Calcule as perdas tanto para o ator quanto para o crítico.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

for episode in range(10):
    state, info = env.reset()
    done = False
    episode_reward = 0
    step = 0
    while not done:
        step += 1
        if done:
            break
        # Select the action
        ____
        next_state, reward, terminated, truncated, _ = env.step(action)
        done = terminated or truncated
        episode_reward += reward
        # Calculate the losses
        ____, ____ = ____(
            critic, action_log_prob, 
            reward, state, next_state, done)        
        actor_optimizer.zero_grad()
        actor_loss.backward()
        actor_optimizer.step()
        critic_optimizer.zero_grad()
        critic_loss.backward()
        critic_optimizer.step()
        state = next_state
    describe_episode(episode, reward, episode_reward, step)
Editar e executar o código