Gourmandise epsilon

Dans cet exercice, vous allez implémenter une fonction d'select_action() qui applique l'algorithme epsilon-greedy avec décroissance.

La cupidité epsilon encouragera votre agent à explorer l'environnement, ce qui devrait améliorer l'apprentissage.

Le programme epsilon-greediness détermine un seuil d'\(\varepsilon\) s pour tout step donné, selon la formule suivante : $$\varepsilon = end + (start-end) \cdot e^{-\frac{step}{decay}}$$

select_action() doit renvoyer une action aléatoire avec une probabilité \(\varepsilon\), et l'action ayant la valeur Q la plus élevée avec une probabilité \(1-\varepsilon\).

Cet exercice fait partie du cours

Apprentissage par renforcement profond en Python

Afficher le cours

Instructions

Veuillez calculer l'epsilon e de seuil pour la valeur donnée de l'step.
Veuillez générer un nombre aléatoire compris entre 0 et 1.
Avec une probabilité epsilon, renvoie une action aléatoire.
Avec une probabilité 1-epsilon, renvoie l'action ayant la valeur Q la plus élevée.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

def select_action(q_values, step, start, end, decay):
    # Calculate the threshold value for this step
    epsilon = end + (____) * math.exp(____ / ____)
    # Draw a random number between 0 and 1
    sample = random.____
    if sample < epsilon:
        # Return a random action index
        return random.____
    # Return the action index with highest Q-value
    return torch.____.item()
      
for step in [1, 500, 2500]:
    actions = [select_action(torch.Tensor([1, 2, 3, 5]), step, .9, .05, 1000) for _ in range(20)]
    print(f"Selecting 20 actions at step {step}.\nThe action with highest q-value is action 3.\nSelected actions: {actions}\n\n")

Modifier et exécuter le code

Cet exercice fait partie du cours

Apprentissage par renforcement profond en Python

AvancéNiveau de compétence

4.8+

Commencer le cours gratuitement

Découvrez comment l'apprentissage par renforcement profond améliore l'apprentissage par renforcement traditionnel tout en étudiant et en mettant en œuvre votre premier algorithme d'apprentissage profond par Q.

Exercise 1: Introduction à l'apprentissage par renforcement profond Exercise 2: Environnement et configuration du réseau neuronal Exercise 3: Boucle de formation DRL Exercise 4: Introduction à l'apprentissage profond Q Exercise 5: Apprentissage profond et DQN Exercise 6: L'architecture du réseau Q Exercise 7: Instancier le réseau Q Exercise 8: L'algorithme DQN de base Exercise 9: Sélection d'actions DQN de base Exercise 10: Fonction de perte DQN de Barebone Exercise 11: Formation du DQN minimal

Explorez le Deep Q-learning en mettant en œuvre l'algorithme DQN original, qui comprend la réutilisation de l'expérience, l'epsilon-greediness et des cibles Q fixes. Au-delà du DQN, vous explorerez ensuite deux extensions intéressantes qui améliorent les performances et la stabilité du Deep Q-learning : Double DQN et relecture d'expérience priorisée.

Exercise 1: DQN avec expérience de relecture Exercise 2: La file d'attente à double extrémité Exercise 3: Mémoire tampon de relecture Exercise 4: DQN avec expérience de relecture Exercise 5: L'algorithme DQN complet Exercise 6: Gourmandise epsilon

Exercice en cours

Exercise 7: Cibles Q fixes Exercise 8: Mise en œuvre de l'algorithme DQN complet Exercise 9: Double DQN Exercise 10: Réseau en ligne et réseau cible dans DDQN Exercise 11: Formation du double DQN Exercise 12: Replay d'expérience prioritaire Exercise 13: Tampon de relecture d'expérience prioritaire Exercise 14: Échantillonnage à partir du tampon PER Exercise 15: DQN avec relecture d'expérience priorisée

Découvrez les concepts fondamentaux des méthodes de gradient de politique dans le domaine du DRL. Vous commencerez par le théorème du gradient de la politique, qui constitue la base de ces méthodes. Ensuite, vous implémenterez l'algorithme REINFORCE, une approche puissante pour l'apprentissage des politiques. Ce chapitre vous guidera ensuite à travers les méthodes Actor-Critic, en mettant l'accent sur l'algorithme Advantage Actor-Critic (A2C), qui combine les forces des méthodes basées sur le gradient de politique et celles basées sur la valeur afin d'améliorer l'efficacité et la stabilité de l'apprentissage.

Exercise 1: Introduction au gradient de politique Exercise 2: L'architecture du réseau politique Exercise 3: Utilisation des distributions discrètes Exercise 4: Gradient de politique et REINFORCE Exercise 5: Sélection d'actions dans REINFORCE Exercise 6: Formation de l'algorithme REINFORCE Exercise 7: Critique de l'acteur Exercise 8: Réseau de critiques Exercise 9: Calcul des pertes pour les acteurs critiques Exercise 10: Formation de l'algorithme A2C

Découvrez l'optimisation de la politique proximale (PPO) pour des performances DRL robustes. Ensuite, vous examinerez l'utilisation d'un bonus d'entropie dans le PPO, qui encourage l'exploration en empêchant la convergence prématurée vers des politiques déterministes. Vous découvrirez également les mises à jour par lots dans les méthodes de gradient de politique. Enfin, vous découvrirez l'optimisation des hyperparamètres avec Optuna, un outil puissant permettant d'optimiser les performances de vos modèles DRL.

Exercise 1: Optimisation de la politique proximale Exercise 2: Le rapport de probabilité tronqué Exercise 3: La fonction objectif de substitution tronquée Exercise 4: Bonus d'entropie et PPO Exercise 5: Terrain de jeu Entropie Exercise 6: Formation de l'algorithme PPO Exercise 7: Mises à jour par lots dans le gradient de politique Exercise 8: Minibatch et DRL Exercise 9: A2C avec mises à jour par lots Exercise 10: Optimisation des hyperparamètres avec Optuna Exercise 11: Hyperparamètre ou pas ?Exercise 12: Essai pratique d'Optuna Exercise 13: Félicitations !