Formation du double DQN

Vous allez maintenant modifier votre code DQN afin d'implémenter le double DQN.

Le Double DQN ne nécessite qu'un ajustement minimal de l'algorithme DQN, mais contribue grandement à résoudre le problème de surestimation de la valeur Q et offre souvent de meilleures performances que le DQN.

Cet exercice fait partie du cours

Apprentissage par renforcement profond en Python

Afficher le cours

Instructions

Calculez les actions suivantes pour le calcul de la cible Q à l'aide de l'online_network(), en veillant à obtenir l'action et la forme appropriées.
Estimez les valeurs Q de ces actions à l'aide de l'target_network(), en veillant à nouveau à obtenir les valeurs et la forme correctes.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

for episode in range(10):
    state, info = env.reset()
    done = False
    step = 0
    episode_reward = 0
    while not done:
        step += 1
        total_steps += 1
        q_values = online_network(state)
        action = select_action(q_values, total_steps, start=.9, end=.05, decay=1000)
        next_state, reward, terminated, truncated, _ = env.step(action)
        done = terminated or truncated
        replay_buffer.push(state, action, reward, next_state, done)        
        if len(replay_buffer) >= batch_size:
            states, actions, rewards, next_states, dones = replay_buffer.sample(64)
            q_values = online_network(states).gather(1, actions).squeeze(1)
            with torch.no_grad():
                # Obtain next actions for Q-target calculation
                next_actions = ____.____.____
                # Estimate next Q-values from these actions
                next_q_values = ____.____.____
                target_q_values = rewards + gamma * next_q_values * (1-dones)
            loss = nn.MSELoss()(q_values, target_q_values)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            update_target_network(target_network, online_network, tau=.005)
        state = next_state
        episode_reward += reward    
    describe_episode(episode, reward, episode_reward, step)

Modifier et exécuter le code

Cet exercice fait partie du cours

Apprentissage par renforcement profond en Python

AvancéNiveau de compétence

4.8+

Commencer le cours gratuitement

Découvrez comment l'apprentissage par renforcement profond améliore l'apprentissage par renforcement traditionnel tout en étudiant et en mettant en œuvre votre premier algorithme d'apprentissage profond par Q.

Exercise 1: Introduction à l'apprentissage par renforcement profond Exercise 2: Environnement et configuration du réseau neuronal Exercise 3: Boucle de formation DRL Exercise 4: Introduction à l'apprentissage profond Q Exercise 5: Apprentissage profond et DQN Exercise 6: L'architecture du réseau Q Exercise 7: Instancier le réseau Q Exercise 8: L'algorithme DQN de base Exercise 9: Sélection d'actions DQN de base Exercise 10: Fonction de perte DQN de Barebone Exercise 11: Formation du DQN minimal

Explorez le Deep Q-learning en mettant en œuvre l'algorithme DQN original, qui comprend la réutilisation de l'expérience, l'epsilon-greediness et des cibles Q fixes. Au-delà du DQN, vous explorerez ensuite deux extensions intéressantes qui améliorent les performances et la stabilité du Deep Q-learning : Double DQN et relecture d'expérience priorisée.

Exercise 1: DQN avec expérience de relecture Exercise 2: La file d'attente à double extrémité Exercise 3: Mémoire tampon de relecture Exercise 4: DQN avec expérience de relecture Exercise 5: L'algorithme DQN complet Exercise 6: Gourmandise epsilon Exercise 7: Cibles Q fixes Exercise 8: Mise en œuvre de l'algorithme DQN complet Exercise 9: Double DQN Exercise 10: Réseau en ligne et réseau cible dans DDQN Exercise 11: Formation du double DQN

Exercice en cours

Exercise 12: Replay d'expérience prioritaire Exercise 13: Tampon de relecture d'expérience prioritaire Exercise 14: Échantillonnage à partir du tampon PER Exercise 15: DQN avec relecture d'expérience priorisée

Découvrez les concepts fondamentaux des méthodes de gradient de politique dans le domaine du DRL. Vous commencerez par le théorème du gradient de la politique, qui constitue la base de ces méthodes. Ensuite, vous implémenterez l'algorithme REINFORCE, une approche puissante pour l'apprentissage des politiques. Ce chapitre vous guidera ensuite à travers les méthodes Actor-Critic, en mettant l'accent sur l'algorithme Advantage Actor-Critic (A2C), qui combine les forces des méthodes basées sur le gradient de politique et celles basées sur la valeur afin d'améliorer l'efficacité et la stabilité de l'apprentissage.

Exercise 1: Introduction au gradient de politique Exercise 2: L'architecture du réseau politique Exercise 3: Utilisation des distributions discrètes Exercise 4: Gradient de politique et REINFORCE Exercise 5: Sélection d'actions dans REINFORCE Exercise 6: Formation de l'algorithme REINFORCE Exercise 7: Critique de l'acteur Exercise 8: Réseau de critiques Exercise 9: Calcul des pertes pour les acteurs critiques Exercise 10: Formation de l'algorithme A2C

Découvrez l'optimisation de la politique proximale (PPO) pour des performances DRL robustes. Ensuite, vous examinerez l'utilisation d'un bonus d'entropie dans le PPO, qui encourage l'exploration en empêchant la convergence prématurée vers des politiques déterministes. Vous découvrirez également les mises à jour par lots dans les méthodes de gradient de politique. Enfin, vous découvrirez l'optimisation des hyperparamètres avec Optuna, un outil puissant permettant d'optimiser les performances de vos modèles DRL.

Exercise 1: Optimisation de la politique proximale Exercise 2: Le rapport de probabilité tronqué Exercise 3: La fonction objectif de substitution tronquée Exercise 4: Bonus d'entropie et PPO Exercise 5: Terrain de jeu Entropie Exercise 6: Formation de l'algorithme PPO Exercise 7: Mises à jour par lots dans le gradient de politique Exercise 8: Minibatch et DRL Exercise 9: A2C avec mises à jour par lots Exercise 10: Optimisation des hyperparamètres avec Optuna Exercise 11: Hyperparamètre ou pas ?Exercise 12: Essai pratique d'Optuna Exercise 13: Félicitations !