Instanciar la red Q
Ahora que has definido su arquitectura, estás preparado para instanciar la red real que utilizará tu agente, así como su optimizador. El entorno del Lunar Lander tiene un espacio de estados de dimensión 8, y un espacio de acciones de dimensión 4 (correspondiente a 0: do nothing
, 1: left thruster
, 2: main engine
, 3: right thruster
).
Tienes a tu disposición la clase QNetwork
del ejercicio anterior.
Este ejercicio forma parte del curso
Aprendizaje profundo por refuerzo en Python
Instrucciones de ejercicio
- Instanciar una Red Q para el entorno Lunar Lander.
- Define el optimizador Adam para la red neuronal, especificando una tasa de aprendizaje de 0,0001.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
state_size = 8
action_size = 4
# Instantiate the Q Network
q_network = QNetwork(____, ____)
# Specify the optimizer learning rate
optimizer = optim.Adam(q_network.parameters(), ____)
print("Q-Network initialized as:\n", q_network)