Instancier le réseau Q
Maintenant que vous avez défini son architecture, vous êtes prêt à instancier le réseau réel que votre agent utilisera, ainsi que son optimiseur. L'environnement Lunar Lander dispose d'un espace d'état de dimension 8 et d'un espace d'action de dimension 4 (correspondant à 0: do nothing, 1: left thruster, 2: main engine, 3: right thruster).
La classe QNetwork de l'exercice précédent est à votre disposition.
Cet exercice fait partie du cours
Apprentissage par renforcement profond en Python
Instructions
- Instanciez un réseau Q pour l'environnement Lunar Lander.
- Définissez l'optimiseur Adam pour le réseau neuronal, en spécifiant un taux d'apprentissage de 0,0001.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
state_size = 8
action_size = 4
# Instantiate the Q Network
q_network = QNetwork(____, ____)
# Specify the optimizer learning rate
optimizer = optim.Adam(q_network.parameters(), ____)
print("Q-Network initialized as:\n", q_network)