BaşlayınÜcretsiz Başlayın

Kırpılmış olasılık oranı

Şimdi, PPO amaç fonksiyonunun temel bir bileşeni olan kırpılmış olasılık oranını uygulayacaksın.

Referans için, olasılık oranı şöyle tanımlanır: $$\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$$

Ve kırpılmış olasılık oranı: \(\mathrm{clip}(r_t(\theta), 1-\varepsilon, 1+\varepsilon)\).

Bu egzersiz

Python ile Deep Reinforcement Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • action_log_prob'dan eylem olasılığı prob'u ve action_log_prob_old'dan prob_old'u elde et.
  • Eski eylem log olasılığını Torch gradyan hesaplama grafiğinden ayır.
  • Olasılık oranını hesapla.
  • Vekil (surrogate) amacı kırp.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

log_prob = torch.tensor(.5).log()
log_prob_old = torch.tensor(.4).log()

def calculate_ratios(action_log_prob, action_log_prob_old, epsilon):
    # Obtain prob and prob_old
    prob = ____
    prob_old = ____
    # Detach the old action log prob
    prob_old_detached = ____.____()
    # Calculate the probability ratio
    ratio = ____ / ____
    # Apply clipping
    clipped_ratio = torch.____(ratio, ____, ____)
    print(f"+{'-'*29}+\n|         Ratio: {str(ratio)} |\n| Clipped ratio: {str(clipped_ratio)} |\n+{'-'*29}+\n")
    return (ratio, clipped_ratio)

_ = calculate_ratios(log_prob, log_prob_old, epsilon=.2)
Kodu Düzenle ve Çalıştır