1
Introducción al aprendizaje profundo por refuerzo
Free
Descubre cómo el Aprendizaje por Refuerzo Profundo mejora el Aprendizaje por Refuerzo tradicional mientras estudias e implementas tu primer algoritmo de Aprendizaje Q Profundo.
2
Aprendizaje Q profundo
Sumérgete en el Aprendizaje Q Profundo implementando el algoritmo original DQN, que incluye la Repetición de Experiencias, la gradación épsilon y los objetivos Q fijos. Más allá de DQN, explorarás dos fascinantes extensiones que mejoran el rendimiento y la estabilidad del aprendizaje Q profundo: Doble DQN y Repetición de Experiencias Priorizadas.
3
Introducción a los métodos de gradiente político
Conoce los conceptos fundamentales de los métodos de gradiente político que se encuentran en DRL. Empezarás con el teorema del gradiente político, que constituye la base de estos métodos. A continuación, pondrás en práctica el algoritmo REINFORCE, un potente método de aprendizaje de políticas. A continuación, el capítulo te guiará a través de los métodos Actor-Crítico, centrándose en el algoritmo Actor-Crítico de Ventaja (A2C), que combina los puntos fuertes de los métodos basados en el gradiente de la política y en el valor para mejorar la eficacia y la estabilidad del aprendizaje.
4
Optimización de la Política Proximal y Consejos DRL
Explora la Optimización de la Política Proximal (PPO) para un rendimiento sólido de DRL. A continuación, examinarás el uso de un bono de entropía en PPO, que fomenta la exploración evitando la convergencia prematura a políticas deterministas. También aprenderás sobre las actualizaciones por lotes en los métodos de gradiente de política. Por último, aprenderás sobre la optimización de hiperparámetros con Optuna, una potente herramienta para optimizar el rendimiento de tus modelos DRL.

Initializing

DQN con repetición priorizada de experiencias

En este ejercicio, introducirás la Repetición de Experiencias Priorizadas (PER) para mejorar el algoritmo DQN. PER pretende optimizar el lote de transiciones seleccionadas para actualizar la red en cada paso.

Como referencia, los nombres de los métodos que has declarado para PrioritizedReplayBuffer son:

push() (para empujar las transiciones a la memoria intermedia)
sample() (para muestrear un lote de transiciones de la memoria intermedia)
increase_beta() (para aumentar el muestreo de importancia)
update_priorities() (para actualizar las prioridades muestreadas)

La función describe_episode() se utiliza de nuevo para describir cada episodio.

Instanciar un búfer de Reproducción de Experiencias Priorizadas con una capacidad de 10000 transiciones.
Aumenta la influencia del muestreo de importancia a lo largo del tiempo actualizando el parámetro beta.
Actualiza la prioridad de las experiencias muestreadas en función de su último error TD.