1
Introdução ao aprendizado por reforço profundo
Free
Descubra como o aprendizado por reforço profundo melhora o aprendizado por reforço tradicional enquanto você estuda e implementa seu primeiro algoritmo de Deep Q Learning.
2
Aprendizado Q profundo
Mergulhe no Deep Q-learning implementando o algoritmo original DQN, com Experience Replay, epsilon-greediness e Q-targets fixos. Além de DQN, você explorará duas extensões fascinantes que melhoram o desempenho e a estabilidade do Deep Q-learning: Duplo DQN e repetição de experiência priorizada.
3
Introdução aos métodos de gradiente de política
Conheça os conceitos básicos dos métodos de gradiente de política encontrados em DRL. Você começará com o teorema do gradiente de política, que forma a base para esses métodos. Em seguida, você implementará o algoritmo REINFORCE, uma abordagem poderosa para aprender políticas. Em seguida, o capítulo guiará você pelos métodos Actor-Critic, com foco no algoritmo Advantage Actor-Critic (A2C), que combina os pontos fortes dos métodos de gradiente de política e baseados em valor para aumentar a eficiência e a estabilidade do aprendizado.
4
Otimização da política proximal e DRL Dicas
Explore a otimização da política proximal (PPO) para obter um desempenho robusto em DRL. Em seguida, você examinará o uso de um bônus de entropia em PPO, que incentiva a exploração ao evitar a convergência prematura para políticas determinísticas. Você também aprenderá sobre atualizações em lote em métodos de gradiente de política. Por fim, você aprenderá sobre a otimização de hiperparâmetros com o Optuna, uma ferramenta avançada para otimizar o desempenho dos seus modelos DRL.

Initializing

Amostragem do buffer PER

Antes de poder usar a classe Prioritized Experience Buffer para treinar seu agente, você ainda precisa implementar o método .sample(). Esse método recebe como argumento o tamanho da amostra que você deseja desenhar e retorna as transições amostradas como tensors, juntamente com seus índices no buffer de memória e seu peso de importância.

Um buffer com capacidade 10 foi pré-carregado no seu ambiente para que você faça a amostragem.

Calcule a probabilidade de amostragem associada a cada transição.
Desenhe os índices correspondentes às transições na amostra; np.random.choice(a, s, p=p) obtém uma amostra de tamanho s com substituição da matriz a, com base na matriz de probabilidade p.
Calcule o peso de importância associado a cada transição.

Introdução ao aprendizado por reforço profundo

Aprendizado Q profundo

Introdução aos métodos de gradiente de política

Otimização da política proximal e DRL Dicas

Exercise

Amostragem do buffer PER

Instructions