Aplicación del algoritmo completo DQN

¡Por fin ha llegado el momento! Todos los requisitos previos están completos; ahora pondrás en práctica el algoritmo completo DQN y lo utilizarás para entrenar a un agente del Lunar Lander. Esto significa que tu algoritmo no sólo utilizará la Repetición de Experiencia, sino también la Decrepitud Epsilon y los Objetivos Q Fijos.

Puedes utilizar la función select_action() que implementa la Codicia Epsilon Decaída, así como la función update_target_network() del último ejercicio. Lo único que queda por hacer es ajustar esas funciones en el bucle de entrenamiento DQN, y asegurarte de que estás utilizando correctamente la Red Objetivo en las caculaciones de pérdidas.

Necesitas mantener un nuevo contador de pasos, total_steps, para que el valor de \(\varepsilon\) decaiga con el tiempo. Esta variable se inicializa para ti con el valor 0.

Utiliza select_action() para aplicar la Codicia Epsilon Decaída y selecciona la acción del agente; tendrás que utilizar total_steps, el total acumulado en todos los episodios.
Antes de calcular el objetivo TD, desactiva el seguimiento del gradiente.
Tras obtener el siguiente estado, obtén los valores Q del siguiente estado.
Actualiza la red de destino al final de cada paso.

Introducción al aprendizaje profundo por refuerzo

Aprendizaje Q profundo

Introducción a los métodos de gradiente político

Optimización de la Política Proximal y Consejos DRL

Ejercicio

Aplicación del algoritmo completo DQN

Instrucciones