Este exercício faz parte do curso
Descubra como o aprendizado por reforço profundo melhora o aprendizado por reforço tradicional enquanto você estuda e implementa seu primeiro algoritmo de Deep Q Learning.
Exercício atual
Mergulhe no Deep Q-learning implementando o algoritmo original DQN, com Experience Replay, epsilon-greediness e Q-targets fixos. Além de DQN, você explorará duas extensões fascinantes que melhoram o desempenho e a estabilidade do Deep Q-learning: Duplo DQN e repetição de experiência priorizada.
Conheça os conceitos básicos dos métodos de gradiente de política encontrados em DRL. Você começará com o teorema do gradiente de política, que forma a base para esses métodos. Em seguida, você implementará o algoritmo REINFORCE, uma abordagem poderosa para aprender políticas. Em seguida, o capítulo guiará você pelos métodos Actor-Critic, com foco no algoritmo Advantage Actor-Critic (A2C), que combina os pontos fortes dos métodos de gradiente de política e baseados em valor para aumentar a eficiência e a estabilidade do aprendizado.
Explore a otimização da política proximal (PPO) para obter um desempenho robusto em DRL. Em seguida, você examinará o uso de um bônus de entropia em PPO, que incentiva a exploração ao evitar a convergência prematura para políticas determinísticas. Você também aprenderá sobre atualizações em lote em métodos de gradiente de política. Por fim, você aprenderá sobre a otimização de hiperparâmetros com o Optuna, uma ferramenta avançada para otimizar o desempenho dos seus modelos DRL.