Environnement et configuration du réseau neuronal

Vous commencerez par configurer l'environnement que vous utiliserez tout au long du cours : l'environnement Lunar Lander, dans lequel un agent contrôle les propulseurs d'un véhicule qui tente d'atterrir sur la Lune.

torch``torch.nn, torch.optim et gym sont importés dans vos exercices.

Cet exercice fait partie du cours

Apprentissage par renforcement profond en Python

Afficher le cours

Instructions

Veuillez initialiser l'environnement Lunar Lander dans gym (LunarLander-v2).
Définissez une seule couche de transformation linéaire, avec une dimension d'entrée dim_inputs et une dimension de sortie dim_outputs.
Instancier le réseau neuronal pour la dimension d'entrée 8 et la dimension de sortie 4.
Veuillez fournir les paramètres à l'optimiseur Adam.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Initiate the Lunar Lander environment
env = gym.____

class Network(nn.Module):
    def __init__(self, dim_inputs, dim_outputs):
        super(Network, self).__init__()
        # Define a linear transformation layer 
        self.linear = ____
    def forward(self, x):
        return self.linear(x)

# Instantiate the network
network = ____

# Initialize the optimizer
optimizer = optim.Adam(____, lr=0.0001)

print("Network initialized as:\n", network)

Modifier et exécuter le code

Cet exercice fait partie du cours

Apprentissage par renforcement profond en Python

AvancéNiveau de compétence

4.8+

Commencer le cours gratuitement

Découvrez comment l'apprentissage par renforcement profond améliore l'apprentissage par renforcement traditionnel tout en étudiant et en mettant en œuvre votre premier algorithme d'apprentissage profond par Q.

Exercise 1: Introduction à l'apprentissage par renforcement profond Exercise 2: Environnement et configuration du réseau neuronal

Exercice en cours

Exercise 3: Boucle de formation DRL Exercise 4: Introduction à l'apprentissage profond Q Exercise 5: Apprentissage profond et DQN Exercise 6: L'architecture du réseau Q Exercise 7: Instancier le réseau Q Exercise 8: L'algorithme DQN de base Exercise 9: Sélection d'actions DQN de base Exercise 10: Fonction de perte DQN de Barebone Exercise 11: Formation du DQN minimal

Explorez le Deep Q-learning en mettant en œuvre l'algorithme DQN original, qui comprend la réutilisation de l'expérience, l'epsilon-greediness et des cibles Q fixes. Au-delà du DQN, vous explorerez ensuite deux extensions intéressantes qui améliorent les performances et la stabilité du Deep Q-learning : Double DQN et relecture d'expérience priorisée.

Exercise 1: DQN avec expérience de relecture Exercise 2: La file d'attente à double extrémité Exercise 3: Mémoire tampon de relecture Exercise 4: DQN avec expérience de relecture Exercise 5: L'algorithme DQN complet Exercise 6: Gourmandise epsilon Exercise 7: Cibles Q fixes Exercise 8: Mise en œuvre de l'algorithme DQN complet Exercise 9: Double DQN Exercise 10: Réseau en ligne et réseau cible dans DDQN Exercise 11: Formation du double DQN Exercise 12: Replay d'expérience prioritaire Exercise 13: Tampon de relecture d'expérience prioritaire Exercise 14: Échantillonnage à partir du tampon PER Exercise 15: DQN avec relecture d'expérience priorisée

Découvrez les concepts fondamentaux des méthodes de gradient de politique dans le domaine du DRL. Vous commencerez par le théorème du gradient de la politique, qui constitue la base de ces méthodes. Ensuite, vous implémenterez l'algorithme REINFORCE, une approche puissante pour l'apprentissage des politiques. Ce chapitre vous guidera ensuite à travers les méthodes Actor-Critic, en mettant l'accent sur l'algorithme Advantage Actor-Critic (A2C), qui combine les forces des méthodes basées sur le gradient de politique et celles basées sur la valeur afin d'améliorer l'efficacité et la stabilité de l'apprentissage.

Exercise 1: Introduction au gradient de politique Exercise 2: L'architecture du réseau politique Exercise 3: Utilisation des distributions discrètes Exercise 4: Gradient de politique et REINFORCE Exercise 5: Sélection d'actions dans REINFORCE Exercise 6: Formation de l'algorithme REINFORCE Exercise 7: Critique de l'acteur Exercise 8: Réseau de critiques Exercise 9: Calcul des pertes pour les acteurs critiques Exercise 10: Formation de l'algorithme A2C

Découvrez l'optimisation de la politique proximale (PPO) pour des performances DRL robustes. Ensuite, vous examinerez l'utilisation d'un bonus d'entropie dans le PPO, qui encourage l'exploration en empêchant la convergence prématurée vers des politiques déterministes. Vous découvrirez également les mises à jour par lots dans les méthodes de gradient de politique. Enfin, vous découvrirez l'optimisation des hyperparamètres avec Optuna, un outil puissant permettant d'optimiser les performances de vos modèles DRL.

Exercise 1: Optimisation de la politique proximale Exercise 2: Le rapport de probabilité tronqué Exercise 3: La fonction objectif de substitution tronquée Exercise 4: Bonus d'entropie et PPO Exercise 5: Terrain de jeu Entropie Exercise 6: Formation de l'algorithme PPO Exercise 7: Mises à jour par lots dans le gradient de politique Exercise 8: Minibatch et DRL Exercise 9: A2C avec mises à jour par lots Exercise 10: Optimisation des hyperparamètres avec Optuna Exercise 11: Hyperparamètre ou pas ?Exercise 12: Essai pratique d'Optuna Exercise 13: Félicitations !