Training des A2C-Algorithmus
Zeit, unseren Lunar Lander mit dem A2C-Algorithmus zu trainieren! Du hast alle Bausteine, jetzt geht es darum, alles zusammenzufügen.
Die Akteurs- und Kritikernetze wurden als actor
und critic
instanziiert, ebenso wie ihre Optimierer actor_optimizer
und critic_optimizer
.
Deine Funktion REINFORCE select_action()
und die Funktion calculate_losses()
aus der vorherigen Übung stehen dir auch hier zur Verfügung.
Diese Übung ist Teil des Kurses
Deep Reinforcement Learning in Python
Anleitung zur Übung
- Lass den Akteur die Aktion auswählen, wenn der Zustand gegeben ist.
- Berechne die Verluste für Schauspieler und Kritiker.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
for episode in range(10):
state, info = env.reset()
done = False
episode_reward = 0
step = 0
while not done:
step += 1
if done:
break
# Select the action
____
next_state, reward, terminated, truncated, _ = env.step(action)
done = terminated or truncated
episode_reward += reward
# Calculate the losses
____, ____ = ____(
critic, action_log_prob,
reward, state, next_state, done)
actor_optimizer.zero_grad()
actor_loss.backward()
actor_optimizer.step()
critic_optimizer.zero_grad()
critic_loss.backward()
critic_optimizer.step()
state = next_state
describe_episode(episode, reward, episode_reward, step)