Calcul des pertes pour les acteurs critiques

Avant de pouvoir entraîner votre agent avec A2C, veuillez écrire une fonction d'calculate_losses() qui renvoie les pertes pour les deux réseaux.

À titre de référence, voici les expressions correspondant respectivement aux fonctions de perte de l'acteur et du critique :

Cet exercice fait partie du cours

Apprentissage par renforcement profond en Python

Afficher le cours

Instructions

Calculez la cible TD.
Veuillez calculer la perte pour le réseau Actor.
Veuillez calculer la perte pour le réseau Critic.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

def calculate_losses(critic_network, action_log_prob, 
                     reward, state, next_state, done):
    value = critic_network(state)
    next_value = critic_network(next_state)
    # Calculate the TD target
    td_target = (____ + gamma * ____ * (1-done))
    td_error = td_target - value
    # Calculate the actor loss
    actor_loss = -____ * ____.detach()
    # Calculate the critic loss
    critic_loss = ____
    return actor_loss, critic_loss
  
actor_loss, critic_loss = calculate_losses(
        critic_network, action_log_prob, 
        reward, state, next_state, done
)
print(round(actor_loss.item(), 2), round(critic_loss.item(), 2))

Modifier et exécuter le code

Cet exercice fait partie du cours

Apprentissage par renforcement profond en Python

AvancéNiveau de compétence

4.8+

Commencer le cours gratuitement

Découvrez comment l'apprentissage par renforcement profond améliore l'apprentissage par renforcement traditionnel tout en étudiant et en mettant en œuvre votre premier algorithme d'apprentissage profond par Q.

Exercise 1: Introduction à l'apprentissage par renforcement profond Exercise 2: Environnement et configuration du réseau neuronal Exercise 3: Boucle de formation DRL Exercise 4: Introduction à l'apprentissage profond Q Exercise 5: Apprentissage profond et DQN Exercise 6: L'architecture du réseau Q Exercise 7: Instancier le réseau Q Exercise 8: L'algorithme DQN de base Exercise 9: Sélection d'actions DQN de base Exercise 10: Fonction de perte DQN de Barebone Exercise 11: Formation du DQN minimal

Explorez le Deep Q-learning en mettant en œuvre l'algorithme DQN original, qui comprend la réutilisation de l'expérience, l'epsilon-greediness et des cibles Q fixes. Au-delà du DQN, vous explorerez ensuite deux extensions intéressantes qui améliorent les performances et la stabilité du Deep Q-learning : Double DQN et relecture d'expérience priorisée.

Exercise 1: DQN avec expérience de relecture Exercise 2: La file d'attente à double extrémité Exercise 3: Mémoire tampon de relecture Exercise 4: DQN avec expérience de relecture Exercise 5: L'algorithme DQN complet Exercise 6: Gourmandise epsilon Exercise 7: Cibles Q fixes Exercise 8: Mise en œuvre de l'algorithme DQN complet Exercise 9: Double DQN Exercise 10: Réseau en ligne et réseau cible dans DDQN Exercise 11: Formation du double DQN Exercise 12: Replay d'expérience prioritaire Exercise 13: Tampon de relecture d'expérience prioritaire Exercise 14: Échantillonnage à partir du tampon PER Exercise 15: DQN avec relecture d'expérience priorisée

Découvrez les concepts fondamentaux des méthodes de gradient de politique dans le domaine du DRL. Vous commencerez par le théorème du gradient de la politique, qui constitue la base de ces méthodes. Ensuite, vous implémenterez l'algorithme REINFORCE, une approche puissante pour l'apprentissage des politiques. Ce chapitre vous guidera ensuite à travers les méthodes Actor-Critic, en mettant l'accent sur l'algorithme Advantage Actor-Critic (A2C), qui combine les forces des méthodes basées sur le gradient de politique et celles basées sur la valeur afin d'améliorer l'efficacité et la stabilité de l'apprentissage.

Exercise 1: Introduction au gradient de politique Exercise 2: L'architecture du réseau politique Exercise 3: Utilisation des distributions discrètes Exercise 4: Gradient de politique et REINFORCE Exercise 5: Sélection d'actions dans REINFORCE Exercise 6: Formation de l'algorithme REINFORCE Exercise 7: Critique de l'acteur Exercise 8: Réseau de critiques Exercise 9: Calcul des pertes pour les acteurs critiques

Exercice en cours

Exercise 10: Formation de l'algorithme A2C

Découvrez l'optimisation de la politique proximale (PPO) pour des performances DRL robustes. Ensuite, vous examinerez l'utilisation d'un bonus d'entropie dans le PPO, qui encourage l'exploration en empêchant la convergence prématurée vers des politiques déterministes. Vous découvrirez également les mises à jour par lots dans les méthodes de gradient de politique. Enfin, vous découvrirez l'optimisation des hyperparamètres avec Optuna, un outil puissant permettant d'optimiser les performances de vos modèles DRL.

Exercise 1: Optimisation de la politique proximale Exercise 2: Le rapport de probabilité tronqué Exercise 3: La fonction objectif de substitution tronquée Exercise 4: Bonus d'entropie et PPO Exercise 5: Terrain de jeu Entropie Exercise 6: Formation de l'algorithme PPO Exercise 7: Mises à jour par lots dans le gradient de politique Exercise 8: Minibatch et DRL Exercise 9: A2C avec mises à jour par lots Exercise 10: Optimisation des hyperparamètres avec Optuna Exercise 11: Hyperparamètre ou pas ?Exercise 12: Essai pratique d'Optuna Exercise 13: Félicitations !