Aan de slagGa gratis aan de slag

De PPO-algoritme trainen

Je gaat nu de vertrouwde A2C-trainingslus gebruiken om het PPO-algoritme te trainen.

Deze trainingslus benut de geclipte surrogaatdoelfunctie niet volledig, en daarom zal dit algoritme waarschijnlijk niet veel beter presteren dan A2C; het dient als illustratie van de concepten rond de geclipte surrogaatdoelfunctie en de entropiebonus.

Deze oefening maakt deel uit van de cursus

Deep Reinforcement Learning in Python

Cursus bekijken

Oefeninstructies

  • Verwijder de entropiebonus uit het actorverlies en gebruik waarde 0,01 voor de parameter \(c_{entropy}\).

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

for episode in range(10):
    state, info = env.reset()
    done = False
    episode_reward = 0
    step = 0
    while not done:    
        step += 1
        action, action_log_prob, entropy = select_action(actor, state)
        next_state, reward, terminated, truncated, _ = env.step(action)
        episode_reward += reward
        done = terminated or truncated
        actor_loss, critic_loss = calculate_losses(critic, action_log_prob, action_log_prob,
                                                   reward, state, next_state, done)
        # Remove the entropy bonus from the actor loss
        actor_loss -= ____ * ____
        actor_optimizer.zero_grad(); actor_loss.backward(); actor_optimizer.step()
        critic_optimizer.zero_grad(); critic_loss.backward(); critic_optimizer.step()
        state = next_state
    describe_episode(episode, reward, episode_reward, step)
Code bewerken en uitvoeren