ComeçarComece gratuitamente

Treinamento do algoritmo PPO

Agora você usará o conhecido loop de treinamento A2C para treinar o algoritmo PPO.

Esse loop de treinamento não tira o máximo proveito da função de objetivo substituto cortado e, como resultado, esse algoritmo não deve ter um desempenho muito melhor do que o A2C; ele serve como ilustração dos conceitos aprendidos sobre o objetivo substituto cortado e o bônus de entropia.

Este exercício faz parte do curso

Aprendizado por reforço profundo em Python

Ver Curso

Instruções de exercício

  • Remova o bônus de entropia da perda do ator, usando o valor 0,01 para o parâmetro \(c_{entropy}\).

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

for episode in range(10):
    state, info = env.reset()
    done = False
    episode_reward = 0
    step = 0
    while not done:    
        step += 1
        action, action_log_prob, entropy = select_action(actor, state)
        next_state, reward, terminated, truncated, _ = env.step(action)
        episode_reward += reward
        done = terminated or truncated
        actor_loss, critic_loss = calculate_losses(critic, action_log_prob, action_log_prob,
                                                   reward, state, next_state, done)
        # Remove the entropy bonus from the actor loss
        actor_loss -= ____ * ____
        actor_optimizer.zero_grad(); actor_loss.backward(); actor_optimizer.step()
        critic_optimizer.zero_grad(); critic_loss.backward(); critic_optimizer.step()
        state = next_state
    describe_episode(episode, reward, episode_reward, step)
Editar e executar código