1
Introdução ao aprendizado por reforço profundo
Kostenlos
Descubra como o aprendizado por reforço profundo melhora o aprendizado por reforço tradicional enquanto você estuda e implementa seu primeiro algoritmo de Deep Q Learning.
2
Aprendizado Q profundo
Mergulhe no Deep Q-learning implementando o algoritmo original DQN, com Experience Replay, epsilon-greediness e Q-targets fixos. Além de DQN, você explorará duas extensões fascinantes que melhoram o desempenho e a estabilidade do Deep Q-learning: Duplo DQN e repetição de experiência priorizada.
3
Introdução aos métodos de gradiente de política
Conheça os conceitos básicos dos métodos de gradiente de política encontrados em DRL. Você começará com o teorema do gradiente de política, que forma a base para esses métodos. Em seguida, você implementará o algoritmo REINFORCE, uma abordagem poderosa para aprender políticas. Em seguida, o capítulo guiará você pelos métodos Actor-Critic, com foco no algoritmo Advantage Actor-Critic (A2C), que combina os pontos fortes dos métodos de gradiente de política e baseados em valor para aumentar a eficiência e a estabilidade do aprendizado.
4
Otimização da política proximal e DRL Dicas
Explore a otimização da política proximal (PPO) para obter um desempenho robusto em DRL. Em seguida, você examinará o uso de um bônus de entropia em PPO, que incentiva a exploração ao evitar a convergência prematura para políticas determinísticas. Você também aprenderá sobre atualizações em lote em métodos de gradiente de política. Por fim, você aprenderá sobre a otimização de hiperparâmetros com o Optuna, uma ferramenta avançada para otimizar o desempenho dos seus modelos DRL.

Initializing

Epsilon-greediness

Neste exercício, você implementará uma função select_action() que aplica a degradação do épsilon-greediness.

A gratidão ao Épsilon incentivará seu agente a explorar o ambiente, o que deve melhorar o aprendizado!

O cronograma de epsilon-greediness determina um limite $\varepsilon$ para qualquer step, conforme a fórmula: $$\varepsilon = end + (start-end) \cdot e^{-\frac{step}{decay}}$$

select_action() deve retornar uma ação aleatória com probabilidade $\varepsilon$ e a ação com o valor Q mais alto com probabilidade $1-\varepsilon$.

Calcule o limite epsilon para o valor fornecido de step.
Sorteie um número aleatório entre 0 e 1.
Com probabilidade epsilon, retorne uma ação aleatória.
Com probabilidade 1-epsilon, retorne a ação com o valor Q mais alto.

Introdução ao aprendizado por reforço profundo

Aprendizado Q profundo

Introdução aos métodos de gradiente de política

Otimização da política proximal e DRL Dicas

Ubung

Epsilon-greediness

Anweisungen