De PPO-algoritme trainen
Je gaat nu de vertrouwde A2C-trainingslus gebruiken om het PPO-algoritme te trainen.
Deze trainingslus benut de geclipte surrogaatdoelfunctie niet volledig, en daarom zal dit algoritme waarschijnlijk niet veel beter presteren dan A2C; het dient als illustratie van de concepten rond de geclipte surrogaatdoelfunctie en de entropiebonus.
Deze oefening maakt deel uit van de cursus
Deep Reinforcement Learning in Python
Oefeninstructies
- Verwijder de entropiebonus uit het actorverlies en gebruik waarde 0,01 voor de parameter \(c_{entropy}\).
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
for episode in range(10):
state, info = env.reset()
done = False
episode_reward = 0
step = 0
while not done:
step += 1
action, action_log_prob, entropy = select_action(actor, state)
next_state, reward, terminated, truncated, _ = env.step(action)
episode_reward += reward
done = terminated or truncated
actor_loss, critic_loss = calculate_losses(critic, action_log_prob, action_log_prob,
reward, state, next_state, done)
# Remove the entropy bonus from the actor loss
actor_loss -= ____ * ____
actor_optimizer.zero_grad(); actor_loss.backward(); actor_optimizer.step()
critic_optimizer.zero_grad(); critic_loss.backward(); critic_optimizer.step()
state = next_state
describe_episode(episode, reward, episode_reward, step)