LoslegenKostenlos loslegen

Training des A2C-Algorithmus

Zeit, unseren Lunar Lander mit dem A2C-Algorithmus zu trainieren! Du hast alle Bausteine, jetzt geht es darum, alles zusammenzufügen.

Die Akteurs- und Kritikernetze wurden als actorund critic instanziiert, ebenso wie ihre Optimierer actor_optimizer und critic_optimizer.

Deine Funktion REINFORCE select_action() und die Funktion calculate_losses() aus der vorherigen Übung stehen dir auch hier zur Verfügung.

Diese Übung ist Teil des Kurses

Deep Reinforcement Learning in Python

Kurs anzeigen

Anleitung zur Übung

  • Lass den Akteur die Aktion auswählen, wenn der Zustand gegeben ist.
  • Berechne die Verluste für Schauspieler und Kritiker.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

for episode in range(10):
    state, info = env.reset()
    done = False
    episode_reward = 0
    step = 0
    while not done:
        step += 1
        if done:
            break
        # Select the action
        ____
        next_state, reward, terminated, truncated, _ = env.step(action)
        done = terminated or truncated
        episode_reward += reward
        # Calculate the losses
        ____, ____ = ____(
            critic, action_log_prob, 
            reward, state, next_state, done)        
        actor_optimizer.zero_grad()
        actor_loss.backward()
        actor_optimizer.step()
        critic_optimizer.zero_grad()
        critic_loss.backward()
        critic_optimizer.step()
        state = next_state
    describe_episode(episode, reward, episode_reward, step)
Code bearbeiten und ausführen