Instanciando a rede Q
Agora que você definiu sua arquitetura, está pronto para instanciar a rede real que seu agente usará, bem como seu otimizador. O ambiente do Lunar Lander tem um espaço de estado de dimensão 8 e um espaço de ação de dimensão 4 (correspondente a 0: do nothing
, 1: left thruster
, 2: main engine
, 3: right thruster
).
A classe QNetwork
do exercício anterior está disponível para você.
Este exercício faz parte do curso
Aprendizado por reforço profundo em Python
Instruções de exercício
- Instanciar uma rede Q para o ambiente do Lunar Lander.
- Defina o otimizador Adam para a rede neural, especificando uma taxa de aprendizado de 0,0001.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
state_size = 8
action_size = 4
# Instantiate the Q Network
q_network = QNetwork(____, ____)
# Specify the optimizer learning rate
optimizer = optim.Adam(q_network.parameters(), ____)
print("Q-Network initialized as:\n", q_network)