Fonction de perte DQN de Barebone

La fonction d'select_action() étant désormais prête, il ne vous reste plus qu'une étape pour pouvoir former votre agent : vous allez maintenant implémenter l'calculate_loss().

calculate_loss() La fonction « network_loss» (perte du réseau) renvoie la perte du réseau pour chaque étape de l'épisode.

À titre indicatif, la perte est calculée comme suit :

Les données suivantes ont été chargées dans l'exercice :

state = torch.rand(8)
next_state = torch.rand(8)
action = select_action(q_network, state)
reward = 1
gamma = .99
done = False

Cet exercice fait partie du cours

Apprentissage par renforcement profond en Python

Afficher le cours

Instructions

Obtenir la valeur Q de l'état actuel.
Obtenir la valeur Q de l'état suivant.
Calculez la valeur Q cible, ou cible TD.
Calculez la fonction de perte, c'est-à-dire l'erreur de Bellman au carré.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

def calculate_loss(q_network, state, action, next_state, reward, done):
    q_values = q_network(state)
    print(f'Q-values: {q_values}')
    # Obtain the current state Q-value
    current_state_q_value = q_values[____]
    print(f'Current state Q-value: {current_state_q_value:.2f}')
    # Obtain the next state Q-value
    next_state_q_value = q_network(next_state).____    
    print(f'Next state Q-value: {next_state_q_value:.2f}')
    # Calculate the target Q-value
    target_q_value = ____ + gamma * ____ * (1-done)
    print(f'Target Q-value: {target_q_value:.2f}')
    # Obtain the loss
    loss = nn.MSELoss()(____, ____)
    print(f'Loss: {loss:.2f}')
    return loss

calculate_loss(q_network, state, action, next_state, reward, done)

Modifier et exécuter le code

Cet exercice fait partie du cours

Apprentissage par renforcement profond en Python

AvancéNiveau de compétence

4.8+

Commencer le cours gratuitement

Découvrez comment l'apprentissage par renforcement profond améliore l'apprentissage par renforcement traditionnel tout en étudiant et en mettant en œuvre votre premier algorithme d'apprentissage profond par Q.

Exercise 1: Introduction à l'apprentissage par renforcement profond Exercise 2: Environnement et configuration du réseau neuronal Exercise 3: Boucle de formation DRL Exercise 4: Introduction à l'apprentissage profond Q Exercise 5: Apprentissage profond et DQN Exercise 6: L'architecture du réseau Q Exercise 7: Instancier le réseau Q Exercise 8: L'algorithme DQN de base Exercise 9: Sélection d'actions DQN de base Exercise 10: Fonction de perte DQN de Barebone

Exercice en cours

Exercise 11: Formation du DQN minimal

Explorez le Deep Q-learning en mettant en œuvre l'algorithme DQN original, qui comprend la réutilisation de l'expérience, l'epsilon-greediness et des cibles Q fixes. Au-delà du DQN, vous explorerez ensuite deux extensions intéressantes qui améliorent les performances et la stabilité du Deep Q-learning : Double DQN et relecture d'expérience priorisée.

Exercise 1: DQN avec expérience de relecture Exercise 2: La file d'attente à double extrémité Exercise 3: Mémoire tampon de relecture Exercise 4: DQN avec expérience de relecture Exercise 5: L'algorithme DQN complet Exercise 6: Gourmandise epsilon Exercise 7: Cibles Q fixes Exercise 8: Mise en œuvre de l'algorithme DQN complet Exercise 9: Double DQN Exercise 10: Réseau en ligne et réseau cible dans DDQN Exercise 11: Formation du double DQN Exercise 12: Replay d'expérience prioritaire Exercise 13: Tampon de relecture d'expérience prioritaire Exercise 14: Échantillonnage à partir du tampon PER Exercise 15: DQN avec relecture d'expérience priorisée

Découvrez les concepts fondamentaux des méthodes de gradient de politique dans le domaine du DRL. Vous commencerez par le théorème du gradient de la politique, qui constitue la base de ces méthodes. Ensuite, vous implémenterez l'algorithme REINFORCE, une approche puissante pour l'apprentissage des politiques. Ce chapitre vous guidera ensuite à travers les méthodes Actor-Critic, en mettant l'accent sur l'algorithme Advantage Actor-Critic (A2C), qui combine les forces des méthodes basées sur le gradient de politique et celles basées sur la valeur afin d'améliorer l'efficacité et la stabilité de l'apprentissage.

Exercise 1: Introduction au gradient de politique Exercise 2: L'architecture du réseau politique Exercise 3: Utilisation des distributions discrètes Exercise 4: Gradient de politique et REINFORCE Exercise 5: Sélection d'actions dans REINFORCE Exercise 6: Formation de l'algorithme REINFORCE Exercise 7: Critique de l'acteur Exercise 8: Réseau de critiques Exercise 9: Calcul des pertes pour les acteurs critiques Exercise 10: Formation de l'algorithme A2C

Découvrez l'optimisation de la politique proximale (PPO) pour des performances DRL robustes. Ensuite, vous examinerez l'utilisation d'un bonus d'entropie dans le PPO, qui encourage l'exploration en empêchant la convergence prématurée vers des politiques déterministes. Vous découvrirez également les mises à jour par lots dans les méthodes de gradient de politique. Enfin, vous découvrirez l'optimisation des hyperparamètres avec Optuna, un outil puissant permettant d'optimiser les performances de vos modèles DRL.

Exercise 1: Optimisation de la politique proximale Exercise 2: Le rapport de probabilité tronqué Exercise 3: La fonction objectif de substitution tronquée Exercise 4: Bonus d'entropie et PPO Exercise 5: Terrain de jeu Entropie Exercise 6: Formation de l'algorithme PPO Exercise 7: Mises à jour par lots dans le gradient de politique Exercise 8: Minibatch et DRL Exercise 9: A2C avec mises à jour par lots Exercise 10: Optimisation des hyperparamètres avec Optuna Exercise 11: Hyperparamètre ou pas ?Exercise 12: Essai pratique d'Optuna Exercise 13: Félicitations !