Het Q-netwerk instantiëren
Nu je de architectuur hebt gedefinieerd, kun je het daadwerkelijke netwerk instantiëren dat je agent gaat gebruiken, plus de optimizer. De Lunar Lander-omgeving heeft een toestandsruimte met dimensie 8 en een actieruimte met dimensie 4 (overeenkomend met 0: niets doen, 1: linker thruster, 2: hoofdmotor, 3: rechter thruster).
De klasse QNetwork uit de vorige oefening is voor je beschikbaar.
Deze oefening maakt deel uit van de cursus
Deep Reinforcement Learning in Python
Oefeninstructies
- Instantieer een Q-netwerk voor de Lunar Lander-omgeving.
- Definieer de Adam-optimizer voor het neuraal netwerk met een leersnelheid van 0,0001.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
state_size = 8
action_size = 4
# Instantiate the Q Network
q_network = QNetwork(____, ____)
# Specify the optimizer learning rate
optimizer = optim.Adam(q_network.parameters(), ____)
print("Q-Network initialized as:\n", q_network)