1
Introducción al aprendizaje profundo por refuerzo
Free
Descubre cómo el Aprendizaje por Refuerzo Profundo mejora el Aprendizaje por Refuerzo tradicional mientras estudias e implementas tu primer algoritmo de Aprendizaje Q Profundo.
2
Aprendizaje Q profundo
Sumérgete en el Aprendizaje Q Profundo implementando el algoritmo original DQN, que incluye la Repetición de Experiencias, la gradación épsilon y los objetivos Q fijos. Más allá de DQN, explorarás dos fascinantes extensiones que mejoran el rendimiento y la estabilidad del aprendizaje Q profundo: Doble DQN y Repetición de Experiencias Priorizadas.
3
Introducción a los métodos de gradiente político
Conoce los conceptos fundamentales de los métodos de gradiente político que se encuentran en DRL. Empezarás con el teorema del gradiente político, que constituye la base de estos métodos. A continuación, pondrás en práctica el algoritmo REINFORCE, un potente método de aprendizaje de políticas. A continuación, el capítulo te guiará a través de los métodos Actor-Crítico, centrándose en el algoritmo Actor-Crítico de Ventaja (A2C), que combina los puntos fuertes de los métodos basados en el gradiente de la política y en el valor para mejorar la eficacia y la estabilidad del aprendizaje.
4
Optimización de la Política Proximal y Consejos DRL
Explora la Optimización de la Política Proximal (PPO) para un rendimiento sólido de DRL. A continuación, examinarás el uso de un bono de entropía en PPO, que fomenta la exploración evitando la convergencia prematura a políticas deterministas. También aprenderás sobre las actualizaciones por lotes en los métodos de gradiente de política. Por último, aprenderás sobre la optimización de hiperparámetros con Optuna, una potente herramienta para optimizar el rendimiento de tus modelos DRL.

Initializing

Red de críticos

Los métodos del Actor Crítico requieren dos redes neuronales muy diferentes.

La arquitectura de la red de actores es idéntica a la de la red de políticas que utilizaste para REINFORCE, por lo que puedes reutilizar la clase PolicyNetwork.

Sin embargo, la red de críticos es algo que no has implementado hasta ahora. El crítico pretende aproximar la función de valor de estado \(V(s_t)\), rather than the action value function \(Q(s_t, a_t)\) aproximada por Q-Networks.

Ahora pondrás en marcha el módulo de red Critic que utilizarás en A2C.

Rellena la dimensión deseada para la segunda capa totalmente conectada, de modo que produzca un valor de estado.
Obtén el valor devuelto por el paso hacia delante a través de la red crítica.

Introducción al aprendizaje profundo por refuerzo

Aprendizaje Q profundo

Introducción a los métodos de gradiente político

Optimización de la Política Proximal y Consejos DRL

Exercise

Red de críticos

Instructions