Treinamento do algoritmo A2C
É hora de treinar nosso Lunar Lander usando o algoritmo A2C! Você tem todos os blocos de construção, agora é só juntar tudo.
As redes de atores e críticos foram instanciadas como actor
e critic
, assim como seus otimizadores actor_optimizer
e critic_optimizer
.
A função REINFORCE select_action()
e a função calculate_losses()
do exercício anterior também estão disponíveis para você usar aqui.
Este exercício faz parte do curso
Aprendizado por reforço profundo em Python
Instruções do exercício
- Permita que o ator selecione a ação, dado o estado.
- Calcule as perdas tanto para o ator quanto para o crítico.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
for episode in range(10):
state, info = env.reset()
done = False
episode_reward = 0
step = 0
while not done:
step += 1
if done:
break
# Select the action
____
next_state, reward, terminated, truncated, _ = env.step(action)
done = terminated or truncated
episode_reward += reward
# Calculate the losses
____, ____ = ____(
critic, action_log_prob,
reward, state, next_state, done)
actor_optimizer.zero_grad()
actor_loss.backward()
actor_optimizer.step()
critic_optimizer.zero_grad()
critic_loss.backward()
critic_optimizer.step()
state = next_state
describe_episode(episode, reward, episode_reward, step)