Addestrare l’algoritmo A2C
È il momento di addestrare il nostro Lunar Lander usando l’algoritmo A2C! Hai già tutti i mattoncini: ora si tratta di metterli insieme.
Le reti actor e critic sono state istanziate come actor e critic, così come i loro ottimizzatori actor_optimizer e critic_optimizer.
La tua funzione REINFORCE select_action() e la funzione calculate_losses() dell’esercizio precedente sono a tua disposizione anche qui.
Questo esercizio fa parte del corso
Deep Reinforcement Learning in Python
Istruzioni dell'esercizio
- Fai selezionare l’azione all’actor dato lo stato.
- Calcola le perdite sia per l’actor sia per il critic.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
for episode in range(10):
state, info = env.reset()
done = False
episode_reward = 0
step = 0
while not done:
step += 1
if done:
break
# Select the action
____
next_state, reward, terminated, truncated, _ = env.step(action)
done = terminated or truncated
episode_reward += reward
# Calculate the losses
____, ____ = ____(
critic, action_log_prob,
reward, state, next_state, done)
actor_optimizer.zero_grad()
actor_loss.backward()
actor_optimizer.step()
critic_optimizer.zero_grad()
critic_loss.backward()
critic_optimizer.step()
state = next_state
describe_episode(episode, reward, episode_reward, step)