IniziaInizia gratis

Addestrare l’algoritmo A2C

È il momento di addestrare il nostro Lunar Lander usando l’algoritmo A2C! Hai già tutti i mattoncini: ora si tratta di metterli insieme.

Le reti actor e critic sono state istanziate come actor e critic, così come i loro ottimizzatori actor_optimizer e critic_optimizer.

La tua funzione REINFORCE select_action() e la funzione calculate_losses() dell’esercizio precedente sono a tua disposizione anche qui.

Questo esercizio fa parte del corso

Deep Reinforcement Learning in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Fai selezionare l’azione all’actor dato lo stato.
  • Calcola le perdite sia per l’actor sia per il critic.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

for episode in range(10):
    state, info = env.reset()
    done = False
    episode_reward = 0
    step = 0
    while not done:
        step += 1
        if done:
            break
        # Select the action
        ____
        next_state, reward, terminated, truncated, _ = env.step(action)
        done = terminated or truncated
        episode_reward += reward
        # Calculate the losses
        ____, ____ = ____(
            critic, action_log_prob, 
            reward, state, next_state, done)        
        actor_optimizer.zero_grad()
        actor_loss.backward()
        actor_optimizer.step()
        critic_optimizer.zero_grad()
        critic_loss.backward()
        critic_optimizer.step()
        state = next_state
    describe_episode(episode, reward, episode_reward, step)
Modifica ed esegui il codice