1
Introducción al aprendizaje profundo por refuerzo
Free
Descubre cómo el Aprendizaje por Refuerzo Profundo mejora el Aprendizaje por Refuerzo tradicional mientras estudias e implementas tu primer algoritmo de Aprendizaje Q Profundo.
2
Aprendizaje Q profundo
Sumérgete en el Aprendizaje Q Profundo implementando el algoritmo original DQN, que incluye la Repetición de Experiencias, la gradación épsilon y los objetivos Q fijos. Más allá de DQN, explorarás dos fascinantes extensiones que mejoran el rendimiento y la estabilidad del aprendizaje Q profundo: Doble DQN y Repetición de Experiencias Priorizadas.
3
Introducción a los métodos de gradiente político
Conoce los conceptos fundamentales de los métodos de gradiente político que se encuentran en DRL. Empezarás con el teorema del gradiente político, que constituye la base de estos métodos. A continuación, pondrás en práctica el algoritmo REINFORCE, un potente método de aprendizaje de políticas. A continuación, el capítulo te guiará a través de los métodos Actor-Crítico, centrándose en el algoritmo Actor-Crítico de Ventaja (A2C), que combina los puntos fuertes de los métodos basados en el gradiente de la política y en el valor para mejorar la eficacia y la estabilidad del aprendizaje.
4
Optimización de la Política Proximal y Consejos DRL
Explora la Optimización de la Política Proximal (PPO) para un rendimiento sólido de DRL. A continuación, examinarás el uso de un bono de entropía en PPO, que fomenta la exploración evitando la convergencia prematura a políticas deterministas. También aprenderás sobre las actualizaciones por lotes en los métodos de gradiente de política. Por último, aprenderás sobre la optimización de hiperparámetros con Optuna, una potente herramienta para optimizar el rendimiento de tus modelos DRL.

Initializing

Epsilon-greediness

En este ejercicio, pondrás en práctica una función select_action() que aplica la degradación épsilon-greediness.

Epsilon-greediness animará a tu agente a explorar el entorno, ¡lo que debería mejorar el aprendizaje!

La programación de la fidelidad épsilon determina un umbral $\varepsilon$ para cualquier step dado, según la fórmula: $$\varepsilon = end + (start-end) \cdot e^{-\frac{step}{decay}}$$

select_action() debe devolver una acción aleatoria con probabilidad $\varepsilon$, y la acción con mayor valor Q con probabilidad $1-\varepsilon$.

Calcula el umbral epsilon para el valor dado de step.
Saca un número al azar entre 0 y 1.
Con la probabilidad epsilon, devuelve una acción aleatoria.
Con probabilidad 1-epsilon, devuelve la acción con mayor valor Q.

Introducción al aprendizaje profundo por refuerzo

Aprendizaje Q profundo

Introducción a los métodos de gradiente político

Optimización de la Política Proximal y Consejos DRL

Exercise

Epsilon-greediness

Instructions