Instanziierung des Q-Netzes
Nachdem du nun die Architektur des Agenten definiert hast, kannst du das eigentliche Netzwerk, das dein Agent verwenden wird, sowie seinen Optimierer instanziieren. Die Umgebung des Lunar Lander hat einen Zustandsraum der Dimension 8 und einen Aktionsraum der Dimension 4 (entsprechend 0: do nothing
, 1: left thruster
, 2: main engine
, 3: right thruster
).
Die Klasse QNetwork
aus der vorherigen Übung steht dir zur Verfügung.
Diese Übung ist Teil des Kurses
Deep Reinforcement Learning in Python
Anleitung zur Übung
- Richte ein Q-Netzwerk für die Lunar Lander-Umgebung ein.
- Definiere den Adam-Optimierer für das neuronale Netz und gib eine Lernrate von 0,0001 an.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
state_size = 8
action_size = 4
# Instantiate the Q Network
q_network = QNetwork(____, ____)
# Specify the optimizer learning rate
optimizer = optim.Adam(q_network.parameters(), ____)
print("Q-Network initialized as:\n", q_network)