Aan de slagGa gratis aan de slag

Het A2C-algoritme trainen

Tijd om onze Lunar Lander te trainen met het A2C-algoritme! Je hebt alle bouwstenen; nu gaat het erom alles samen te brengen.

De actor- en critic-netwerken zijn geïnstantieerd als actor en critic, net als hun optimizers actor_optimizer en critic_optimizer.

Je REINFORCE-functie select_action() en de functie calculate_losses() uit de vorige oefening zijn hier ook beschikbaar om te gebruiken.

Deze oefening maakt deel uit van de cursus

Deep Reinforcement Learning in Python

Cursus bekijken

Oefeninstructies

  • Laat de actor de actie kiezen, gegeven de state.
  • Bereken de verliezen voor zowel de actor als de critic.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

for episode in range(10):
    state, info = env.reset()
    done = False
    episode_reward = 0
    step = 0
    while not done:
        step += 1
        if done:
            break
        # Select the action
        ____
        next_state, reward, terminated, truncated, _ = env.step(action)
        done = terminated or truncated
        episode_reward += reward
        # Calculate the losses
        ____, ____ = ____(
            critic, action_log_prob, 
            reward, state, next_state, done)        
        actor_optimizer.zero_grad()
        actor_loss.backward()
        actor_optimizer.step()
        critic_optimizer.zero_grad()
        critic_loss.backward()
        critic_optimizer.step()
        state = next_state
    describe_episode(episode, reward, episode_reward, step)
Code bewerken en uitvoeren