Buffer de repetición de experiencia priorizada

Presentarás la clase PrioritizedExperienceReplay, una estructura de datos que utilizarás más adelante para implementar DQN con la Repetición de Experiencias Priorizadas.

PrioritizedExperienceReplay es un perfeccionamiento de la clase ExperienceReplay que has estado utilizando hasta ahora para entrenar a tus agentes DQN. Un búfer de repetición de experiencias priorizado garantiza que las transiciones muestreadas de él sean más valiosas para que el agente aprenda de ellas que con un muestreo uniforme.

Por ahora, implementa los métodos .__init__(), .push(), .update_priorities(), .increase_beta() y .__len__(). El último método, .sample(), será el objeto del siguiente ejercicio.

En .push(), inicializa la prioridad de la transición a la máxima prioridad del búfer (o a 1 si el búfer está vacío).
En .update_priorities(), ajusta la prioridad al valor absoluto del error correspondiente de TD; añade self.epsilon para cubrir los casos límite.
En .increase_beta(), incrementa beta en self.beta_increment; asegúrate de que beta nunca sea superior a 1.

Introducción al aprendizaje profundo por refuerzo

Aprendizaje Q profundo

Introducción a los métodos de gradiente político

Optimización de la Política Proximal y Consejos DRL

Ejercicio

Buffer de repetición de experiencia priorizada

Instrucciones