A taxa de probabilidade cortada

Agora você implementará a razão de probabilidade recortada, um componente essencial da função objetiva do PPO.

Para referência, a razão de probabilidade é definida como: $$\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$$

E a razão de probabilidade cortada é: \(\mathrm{clip}(r_t(\theta), 1-\varepsilon, 1+\varepsilon)\).

Este exercicio faz parte do curso

Aprendizado por reforço profundo em Python

Instruções do exercicio

Obtenha a probabilidade de ação prob em action_log_prob e prob_old em action_log_prob_old.
Remova o antigo prob de registro de ações do gráfico de computação do gradiente da tocha.
Calcule a razão de probabilidade.
Corte o objetivo substituto.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

log_prob = torch.tensor(.5).log()
log_prob_old = torch.tensor(.4).log()

def calculate_ratios(action_log_prob, action_log_prob_old, epsilon):
    # Obtain prob and prob_old
    prob = ____
    prob_old = ____
    # Detach the old action log prob
    prob_old_detached = ____.____()
    # Calculate the probability ratio
    ratio = ____ / ____
    # Apply clipping
    clipped_ratio = torch.____(ratio, ____, ____)
    print(f"+{'-'*29}+\n|         Ratio: {str(ratio)} |\n| Clipped ratio: {str(clipped_ratio)} |\n+{'-'*29}+\n")
    return (ratio, clipped_ratio)

_ = calculate_ratios(log_prob, log_prob_old, epsilon=.2)

Editar e Executar Código

Este exercicio faz parte do curso

Aprendizado por reforço profundo em Python

AvançadoNível de habilidade

4.8+

Comece o curso gratuitamente

Descubra como o aprendizado por reforço profundo melhora o aprendizado por reforço tradicional enquanto você estuda e implementa seu primeiro algoritmo de Deep Q Learning.

Exercise 1: Introdução ao aprendizado por reforço profundo Exercise 2: Ambiente e configuração da rede neural Exercise 3: DRL ciclo de treinamento Exercise 4: Introdução à aprendizagem profunda de Q Exercise 5: Aprendizagem profunda e DQN Exercise 6: A arquitetura da rede Q Exercise 7: Instanciando a rede Q Exercise 8: O algoritmo barebone DQN Exercise 9: Barebone DQN seleção de ações Exercise 10: Barebone DQN função de perda Exercise 11: Treinamento do barebone DQN

Mergulhe no Deep Q-learning implementando o algoritmo original DQN, com Experience Replay, epsilon-greediness e Q-targets fixos. Além de DQN, você explorará duas extensões fascinantes que melhoram o desempenho e a estabilidade do Deep Q-learning: Duplo DQN e repetição de experiência priorizada.

Exercise 1: DQN com repetição de experiência Exercise 2: A fila dupla Exercise 3: Buffer de reprodução de experiência Exercise 4: DQN com repetição de experiência Exercise 5: O algoritmo DQN completo Exercise 6: Epsilon-greediness Exercise 7: Metas Q fixas Exercise 8: Implementação do algoritmo DQN completo Exercise 9: Duplo DQN Exercise 10: Rede on-line e rede de destino em DDQN Exercise 11: Treinar a dupla DQN Exercise 12: Repetição de experiência priorizada Exercise 13: Buffer de reprodução de experiência priorizada Exercise 14: Amostragem do buffer PER Exercise 15: DQN com reprodução de experiência priorizada

Conheça os conceitos básicos dos métodos de gradiente de política encontrados em DRL. Você começará com o teorema do gradiente de política, que forma a base para esses métodos. Em seguida, você implementará o algoritmo REINFORCE, uma abordagem poderosa para aprender políticas. Em seguida, o capítulo guiará você pelos métodos Actor-Critic, com foco no algoritmo Advantage Actor-Critic (A2C), que combina os pontos fortes dos métodos de gradiente de política e baseados em valor para aumentar a eficiência e a estabilidade do aprendizado.

Exercise 1: Introdução ao gradiente de políticas Exercise 2: A arquitetura da rede de políticas Exercise 3: Trabalho com distribuições discretas Exercise 4: Gradiente de políticas e REINFORCE Exercise 5: Seleção de ações em REINFORCE Exercise 6: Treinamento do algoritmo REINFORCE Exercise 7: Vantagem do ator crítico Exercise 8: Rede de críticos Exercise 9: Cálculos de perda do Actor Critic Exercise 10: Treinamento do algoritmo A2C

Explore a otimização da política proximal (PPO) para obter um desempenho robusto em DRL. Em seguida, você examinará o uso de um bônus de entropia em PPO, que incentiva a exploração ao evitar a convergência prematura para políticas determinísticas. Você também aprenderá sobre atualizações em lote em métodos de gradiente de política. Por fim, você aprenderá sobre a otimização de hiperparâmetros com o Optuna, uma ferramenta avançada para otimizar o desempenho dos seus modelos DRL.

Exercise 1: Otimização da política proximal Exercise 2: A taxa de probabilidade cortada

Exercicio Atual

Exercise 3: A função objetiva substituta recortada Exercise 4: Bônus de entropia e PPO Exercise 5: Playground de entropia Exercise 6: Treinamento do algoritmo PPO Exercise 7: Atualizações em lote no gradiente de política Exercise 8: Minibatch e DRL Exercise 9: A2C com atualizações em lote Exercise 10: Otimização de hiperparâmetros com o Optuna Exercise 11: Hiperparâmetro ou não?Exercise 12: Prática com o Optuna Exercise 13: Parabéns!