Instanziierung des Q-Netzes

Nachdem du nun die Architektur des Agenten definiert hast, kannst du das eigentliche Netzwerk, das dein Agent verwenden wird, sowie seinen Optimierer instanziieren. Die Umgebung des Lunar Lander hat einen Zustandsraum der Dimension 8 und einen Aktionsraum der Dimension 4 (entsprechend 0: do nothing, 1: left thruster, 2: main engine, 3: right thruster).

Die Klasse QNetwork aus der vorherigen Übung steht dir zur Verfügung.

Diese Übung ist Teil des Kurses

Deep Reinforcement Learning in Python

Kurs anzeigen

Anleitung zur Übung

  • Richte ein Q-Netzwerk für die Lunar Lander-Umgebung ein.
  • Definiere den Adam-Optimierer für das neuronale Netz und gib eine Lernrate von 0,0001 an.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

state_size = 8
action_size = 4
# Instantiate the Q Network
q_network = QNetwork(____, ____)
# Specify the optimizer learning rate
optimizer = optim.Adam(q_network.parameters(), ____)

print("Q-Network initialized as:\n", q_network)