Erste SchritteKostenlos loslegen

Training des PPO Algorithmus

Du wirst nun die bekannte A2C-Trainingsschleife verwenden, um den PPO Algorithmus zu trainieren.

In dieser Trainingsschleife wird die beschnittene Surrogat-Zielfunktion nicht voll ausgenutzt, weshalb dieser Algorithmus nicht viel besser abschneidet als A2C. Er dient zur Veranschaulichung der erlernten Konzepte rund um das beschnittene Surrogat-Ziel und den Entropiebonus.

Diese Übung ist Teil des Kurses

Deep Reinforcement Learning in Python

Kurs anzeigen

Anleitung zur Übung

  • Entferne den Entropie-Bonus aus dem Akteursverlust, indem du den Wert 0,01 für den Parameter \(c_{entropy}\) verwendest.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

for episode in range(10):
    state, info = env.reset()
    done = False
    episode_reward = 0
    step = 0
    while not done:    
        step += 1
        action, action_log_prob, entropy = select_action(actor, state)
        next_state, reward, terminated, truncated, _ = env.step(action)
        episode_reward += reward
        done = terminated or truncated
        actor_loss, critic_loss = calculate_losses(critic, action_log_prob, action_log_prob,
                                                   reward, state, next_state, done)
        # Remove the entropy bonus from the actor loss
        actor_loss -= ____ * ____
        actor_optimizer.zero_grad(); actor_loss.backward(); actor_optimizer.step()
        critic_optimizer.zero_grad(); critic_loss.backward(); critic_optimizer.step()
        state = next_state
    describe_episode(episode, reward, episode_reward, step)
Bearbeiten und Ausführen von Code