Conoce los conceptos fundamentales de los métodos de gradiente político que se encuentran en DRL. Empezarás con el teorema del gradiente político, que constituye la base de estos métodos. A continuación, pondrás en práctica el algoritmo REINFORCE, un potente método de aprendizaje de políticas. A continuación, el capítulo te guiará a través de los métodos Actor-Crítico, centrándose en el algoritmo Actor-Crítico de Ventaja (A2C), que combina los puntos fuertes de los métodos basados en el gradiente de la política y en el valor para mejorar la eficacia y la estabilidad del aprendizaje.