A2C mit Batch-Updates

In diesem Kurs hast du bisher Variationen der gleichen DRL Trainingsschleife verwendet. In der Praxis gibt es eine Reihe von Möglichkeiten, diese Struktur zu erweitern, zum Beispiel um Batch-Updates zu ermöglichen.

Du wirst nun die A2C-Trainingsschleife in der Lunar Lander-Umgebung wiederholen, aber anstatt die Netze bei jedem Schritt zu aktualisieren, wartest du, bis 10 Schritte verstrichen sind, bevor du den Schritt des Gradientenabstiegs ausführst. Wenn du die Verluste über 10 Schritte mittelst, profitierst du von etwas stabileren Updates.

Diese Übung ist Teil des Kurses

Deep Reinforcement Learning in Python

Anleitung zur Übung

Füge die Verluste aus jedem Schritt zu den Verlusttensoren für den aktuellen Stapel hinzu.
Berechne die Chargenverluste.
Reinitialisiere die Verlusttensoren.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

actor_losses = torch.tensor([])
critic_losses = torch.tensor([])
for episode in range(10):
    state, info = env.reset()
    done = False
    episode_reward = 0
    step = 0
    while not done:
        step += 1
        action, action_log_prob = select_action(actor, state)                
        next_state, reward, terminated, truncated, _ = env.step(action)
        done = terminated or truncated
        episode_reward += reward
        actor_loss, critic_loss = calculate_losses(
            critic, action_log_prob, 
            reward, state, next_state, done)
        # Append to the loss tensors
        actor_losses = torch.cat((____, ____))
        critic_losses = torch.cat((____, ____))
        if len(actor_losses) >= 10:
            # Calculate the batch losses
            actor_loss_batch = actor_losses.____
            critic_loss_batch = critic_losses.____
            actor_optimizer.zero_grad(); actor_loss_batch.backward(); actor_optimizer.step()
            critic_optimizer.zero_grad(); critic_loss_batch.backward(); critic_optimizer.step()
            # Reinitialize the loss tensors
            actor_losses = ____
            critic_losses = ____
        state = next_state
    describe_episode(episode, reward, episode_reward, step)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Deep Reinforcement Learning in Python

Hohe SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Entdecke, wie Deep Reinforcement Learning das traditionelle Reinforcement Learning verbessert, während du deinen ersten Deep Q Learning-Algorithmus studierst und implementierst.

Exercise 1: Einführung in Deep Reinforcement Learning Exercise 2: Umgebung und Aufbau des neuronalen Netzes Exercise 3: DRL Trainingsschleife Exercise 4: Einführung in Deep Q Learning Exercise 5: Deep Learning und DQN Exercise 6: Die Architektur des Q-Netzes Exercise 7: Instanziierung des Q-Netzes Exercise 8: Der Barebone-Algorithmus DQN Exercise 9: Barebone DQN Aktionsauswahl Exercise 10: Barebone DQN Verlustfunktion Exercise 11: Ausbildung des Barebone DQN

Tauche ein in das Deep Q-learning, indem du den ursprünglichen DQN Algorithmus mit Experience Replay, Epsilon-Greediness und festen Q-Zielen implementierst. Über DQN hinaus wirst du zwei faszinierende Erweiterungen kennenlernen, die die Leistung und Stabilität von Deep Q-learning verbessern: Doppelte DQN und priorisierte Erfahrungswiederholung.

Exercise 1: DQN mit Erlebniswiedergabe Exercise 2: Die doppelendige Warteschlange Exercise 3: Puffer für Erfahrungswiedergabe Exercise 4: DQN mit Erlebniswiedergabe Exercise 5: Der vollständige DQN Algorithmus Exercise 6: Epsilon-Grausamkeit Exercise 7: Feste Q-Ziele Exercise 8: Den kompletten DQN Algorithmus implementieren Exercise 9: Doppelter DQN Exercise 10: Online-Netzwerk und Zielnetzwerk in DDQN Exercise 11: Das Doppelte trainieren DQN Exercise 12: Priorisierte Erfahrungswiedergabe Exercise 13: Priorisierter Erfahrungswiedergabepuffer Exercise 14: Probenahme aus dem Puffer PER Exercise 15: DQN mit priorisierter Erfahrungswiedergabe

Lerne die grundlegenden Konzepte der politischen Gradientenmethoden auf DRL kennen. Du beginnst mit dem politischen Gradiententheorem, das die Grundlage für diese Methoden bildet. Dann implementierst du den REINFORCE Algorithmus, einen leistungsstarken Ansatz zum Lernen von Richtlinien. Das Kapitel führt dich dann durch die Actor-Critic-Methoden und konzentriert sich dabei auf den Advantage Actor-Critic (A2C)-Algorithmus, der die Stärken der Policy-Gradienten- und der wertbasierten Methoden kombiniert, um die Lerneffizienz und die Stabilität zu verbessern.

Exercise 1: Einführung in das Politikgefälle Exercise 2: Die Architektur des Politiknetzwerks Exercise 3: Arbeiten mit diskreten Verteilungen Exercise 4: Politisches Gefälle und REINFORCE Exercise 5: Aktionsauswahl in REINFORCE Exercise 6: Training des REINFORCE Algorithmus Exercise 7: Vorteil Schauspieler-Kritiker Exercise 8: Kritiker-Netzwerk Exercise 9: Schauspieler Kritische Verlustberechnungen Exercise 10: Training des A2C-Algorithmus

Erforsche Proximal Policy Optimization (PPO) für eine robuste DRL Leistung. Als Nächstes wirst du die Verwendung eines Entropie-Bonus in PPO untersuchen, der die Erkundung fördert, indem er eine vorzeitige Konvergenz zu deterministischen Strategien verhindert. Du lernst auch etwas über Batch-Updates bei Policy-Gradienten-Methoden. Schließlich lernst du die Optimierung von Hyperparametern mit Optuna kennen, einem leistungsstarken Tool zur Optimierung der Leistung deiner DRL Modelle.

Exercise 1: Optimierung der Politik in der Nähe Exercise 2: Das abgeschnittene Wahrscheinlichkeitsverhältnis Exercise 3: Die beschnittene Surrogat-Zielfunktion Exercise 4: Entropie-Bonus und PPO Exercise 5: Entropie Spielplatz Exercise 6: Training des PPO Algorithmus Exercise 7: Batch-Updates im Policy-Gradienten Exercise 8: Minibatch und DRL Exercise 9: A2C mit Batch-Updates

Aktuelle Übung

Exercise 10: Hyperparameter-Optimierung mit Optuna Exercise 11: Hyperparameter oder nicht?Exercise 12: Praktische Erfahrung mit Optuna Exercise 13: Herzlichen Glückwunsch!