Conheça os conceitos básicos dos métodos de gradiente de política encontrados em DRL. Você começará com o teorema do gradiente de política, que forma a base para esses métodos. Em seguida, você implementará o algoritmo REINFORCE, uma abordagem poderosa para aprender políticas. Em seguida, o capítulo guiará você pelos métodos Actor-Critic, com foco no algoritmo Advantage Actor-Critic (A2C), que combina os pontos fortes dos métodos de gradiente de política e baseados em valor para aumentar a eficiência e a estabilidade do aprendizado.