Het A2C-algoritme trainen
Tijd om onze Lunar Lander te trainen met het A2C-algoritme! Je hebt alle bouwstenen; nu gaat het erom alles samen te brengen.
De actor- en critic-netwerken zijn geïnstantieerd als actor en critic, net als hun optimizers actor_optimizer en critic_optimizer.
Je REINFORCE-functie select_action() en de functie calculate_losses() uit de vorige oefening zijn hier ook beschikbaar om te gebruiken.
Deze oefening maakt deel uit van de cursus
Deep Reinforcement Learning in Python
Oefeninstructies
- Laat de actor de actie kiezen, gegeven de state.
- Bereken de verliezen voor zowel de actor als de critic.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
for episode in range(10):
state, info = env.reset()
done = False
episode_reward = 0
step = 0
while not done:
step += 1
if done:
break
# Select the action
____
next_state, reward, terminated, truncated, _ = env.step(action)
done = terminated or truncated
episode_reward += reward
# Calculate the losses
____, ____ = ____(
critic, action_log_prob,
reward, state, next_state, done)
actor_optimizer.zero_grad()
actor_loss.backward()
actor_optimizer.step()
critic_optimizer.zero_grad()
critic_loss.backward()
critic_optimizer.step()
state = next_state
describe_episode(episode, reward, episode_reward, step)