1
Introducción al aprendizaje profundo por refuerzo
Gratuito
Descubre cómo el Aprendizaje por Refuerzo Profundo mejora el Aprendizaje por Refuerzo tradicional mientras estudias e implementas tu primer algoritmo de Aprendizaje Q Profundo.
2
Aprendizaje Q profundo
Sumérgete en el Aprendizaje Q Profundo implementando el algoritmo original DQN, que incluye la Repetición de Experiencias, la gradación épsilon y los objetivos Q fijos. Más allá de DQN, explorarás dos fascinantes extensiones que mejoran el rendimiento y la estabilidad del aprendizaje Q profundo: Doble DQN y Repetición de Experiencias Priorizadas.
3
Introducción a los métodos de gradiente político
Conoce los conceptos fundamentales de los métodos de gradiente político que se encuentran en DRL. Empezarás con el teorema del gradiente político, que constituye la base de estos métodos. A continuación, pondrás en práctica el algoritmo REINFORCE, un potente método de aprendizaje de políticas. A continuación, el capítulo te guiará a través de los métodos Actor-Crítico, centrándose en el algoritmo Actor-Crítico de Ventaja (A2C), que combina los puntos fuertes de los métodos basados en el gradiente de la política y en el valor para mejorar la eficacia y la estabilidad del aprendizaje.
4
Optimización de la Política Proximal y Consejos DRL
Explora la Optimización de la Política Proximal (PPO) para un rendimiento sólido de DRL. A continuación, examinarás el uso de un bono de entropía en PPO, que fomenta la exploración evitando la convergencia prematura a políticas deterministas. También aprenderás sobre las actualizaciones por lotes en los métodos de gradiente de política. Por último, aprenderás sobre la optimización de hiperparámetros con Optuna, una potente herramienta para optimizar el rendimiento de tus modelos DRL.

Initializing

Trabajar con distribuciones discretas

Pronto vas a trabajar con políticas estocásticas: políticas que representan el comportamiento del agente en un estado dado como una distribución de probabilidad sobre las acciones.

PyTorch puede representar distribuciones discretas utilizando la clase torch.distributions.Categorical, con la que ahora experimentarás.

Verás que en realidad no es necesario que los números utilizados como entrada sumen 1, como hacen las probabilidades; se normalizan automáticamente.

Instanciar la distribución de probabilidad categórica.
Toma una muestra de la distribución.
Especifica 3 números positivos que sumen 1, para que actúen como probabilidades.
Especifica 5 números positivos; Categórico los normalizará silenciosamente para obtener las probabilidades.

Introducción al aprendizaje profundo por refuerzo

Aprendizaje Q profundo

Introducción a los métodos de gradiente político

Optimización de la Política Proximal y Consejos DRL

Ejercicio

Trabajar con distribuciones discretas

Instrucciones