Treinamento do algoritmo PPO
Agora você usará o conhecido loop de treinamento A2C para treinar o algoritmo PPO.
Esse loop de treinamento não tira o máximo proveito da função de objetivo substituto cortado e, como resultado, esse algoritmo não deve ter um desempenho muito melhor do que o A2C; ele serve como ilustração dos conceitos aprendidos sobre o objetivo substituto cortado e o bônus de entropia.
Este exercício faz parte do curso
Aprendizado por reforço profundo em Python
Instruções de exercício
- Remova o bônus de entropia da perda do ator, usando o valor 0,01 para o parâmetro \(c_{entropy}\).
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
for episode in range(10):
state, info = env.reset()
done = False
episode_reward = 0
step = 0
while not done:
step += 1
action, action_log_prob, entropy = select_action(actor, state)
next_state, reward, terminated, truncated, _ = env.step(action)
episode_reward += reward
done = terminated or truncated
actor_loss, critic_loss = calculate_losses(critic, action_log_prob, action_log_prob,
reward, state, next_state, done)
# Remove the entropy bonus from the actor loss
actor_loss -= ____ * ____
actor_optimizer.zero_grad(); actor_loss.backward(); actor_optimizer.step()
critic_optimizer.zero_grad(); critic_loss.backward(); critic_optimizer.step()
state = next_state
describe_episode(episode, reward, episode_reward, step)