Double DQN'i eğitmek

Şimdi DQN kodunu değiştirerek double DQN'i uygulayacaksın.

Double DQN, DQN algoritmasında yalnızca küçük bir ayar gerektirir; ancak Q-değerlerinin aşırı tahmin edilmesi sorununu büyük ölçüde azaltır ve çoğu zaman DQN'den daha iyi performans gösterir.

Bu egzersiz, kursun bir parçasıdır

Python ile Deep Reinforcement Learning

Kursa Göz Atın

Egzersiz talimatları

Q-hedefi hesaplaması için sonraki eylemleri online_network() kullanarak hesapla; doğru eylemi ve şekli elde ettiğinden emin ol.
Bu eylemler için Q-değerlerini target_network() ile tahmin et; yine doğru değerleri ve şekli elde ettiğinden emin ol.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

for episode in range(10):
    state, info = env.reset()
    done = False
    step = 0
    episode_reward = 0
    while not done:
        step += 1
        total_steps += 1
        q_values = online_network(state)
        action = select_action(q_values, total_steps, start=.9, end=.05, decay=1000)
        next_state, reward, terminated, truncated, _ = env.step(action)
        done = terminated or truncated
        replay_buffer.push(state, action, reward, next_state, done)        
        if len(replay_buffer) >= batch_size:
            states, actions, rewards, next_states, dones = replay_buffer.sample(64)
            q_values = online_network(states).gather(1, actions).squeeze(1)
            with torch.no_grad():
                # Obtain next actions for Q-target calculation
                next_actions = ____.____.____
                # Estimate next Q-values from these actions
                next_q_values = ____.____.____
                target_q_values = rewards + gamma * next_q_values * (1-dones)
            loss = nn.MSELoss()(q_values, target_q_values)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            update_target_network(target_network, online_network, tau=.005)
        state = next_state
        episode_reward += reward    
    describe_episode(episode, reward, episode_reward, step)

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Deep Reinforcement Learning

AvançadoNível de habilidade

4.8+

Kursa Ücretsiz Başla

Deep reinforcement learning’in, geleneksel Reinforcement Learning’e nasıl üstünlük sağladığını keşfet ve ilk Deep Q Learning algoritmanı inceleyip uygula.

Exercise 1: Derin pekiştirmeli öğrenmeye giriş Exercise 2: Ortam ve sinir ağı kurulumu Exercise 3: DRL eğitim döngüsü Exercise 4: Deep Q öğrenmeye giriş Exercise 5: Deep learning ve DQN Exercise 6: Q-Ağı mimarisi Exercise 7: Q-Ağını Örneklendirme Exercise 8: Temel DQN algoritması Exercise 9: Temel DQN eylem seçimi Exercise 10: Temel DQN kayıp fonksiyonu Exercise 11: Temel DQN'i eğitme

Experience Replay, epsilon-greediness ve sabit Q-hedefleri içeren orijinal DQN algoritmasını uygulayarak Deep Q-learning’e dal. DQN’in ötesinde, Deep Q-learning’in performans ve kararlılığını artıran iki etkileyici genişletmeyi keşfedeceksin: Double DQN ve Prioritized Experience Replay.

Exercise 1: Deneyim tekrar çalma ile DQN Exercise 2: Çift uçlu kuyruk Exercise 3: Deneyim tekrar oynatma tamponu Exercise 4: Deneyim Tekrarı ile DQN Exercise 5: Tam DQN algoritması Exercise 6: Epsilon-açgözlülüğü Exercise 7: Sabit Q-hedefleri Exercise 8: Tam DQN algoritmasını uygulama Exercise 9: Double DQN Exercise 10: DDQN'de çevrimiçi ağ ve hedef ağ Exercise 11: Double DQN'i eğitmek

Geçerli egzersiz

Exercise 12: Önceliklendirilmiş deneyim tekrar oynatma Exercise 13: Öncelikli deneyim tekrar oynatma tamponu Exercise 14: PER arabelleğinden örnekleme Exercise 15: Öncelikli deneyim tekrarı ile DQN

DRL’de yer alan policy gradient yöntemlerinin temel kavramlarını öğren. Bu yöntemlerin temelini oluşturan policy gradient teoremi ile başlayacaksın. Ardından politikaları öğrenmede güçlü bir yaklaşım olan REINFORCE algoritmasını uygulayacaksın. Bölüm, policy gradient ve değer tabanlı yöntemlerin güçlü yönlerini birleştirerek öğrenme verimliliği ve kararlılığını artıran Advantage Actor-Critic (A2C) yöntemine odaklanan Actor-Critic yöntemleriyle devam edecek.

Exercise 1: Politika gradyanına giriş Exercise 2: Policy ağının mimarisi Exercise 3: Ayrık dağılımlarla çalışmak Exercise 4: Policy gradient ve REINFORCE Exercise 5: REINFORCE'ta eylem seçimi Exercise 6: REINFORCE algoritmasını eğitme Exercise 7: Advantage Actor-Critic Exercise 8: Eleştirmen (Critic) ağı Exercise 9: Actor-Critic kayıp hesaplamaları Exercise 10: A2C algoritmasını eğitme

Sağlam DRL performansı için Proximal Policy Optimization (PPO)’ı keşfet. Sonraki adımda, belirleyici politikalara erken yakınsamayı önleyerek keşfi teşvik eden PPO’daki entropi bonusunu inceleyeceksin. Ayrıca policy gradient yöntemlerinde toplu (batch) güncellemeleri öğreneceksin. Son olarak, DRL modellerindeki performansı iyileştirmek için güçlü bir araç olan Optuna ile hiperparametre optimizasyonunu öğreneceksin.

Exercise 1: Yakınsal politika optimizasyonu Exercise 2: Kırpılmış olasılık oranı Exercise 3: Kırpılmış yerine geçen amaç fonksiyonu Exercise 4: Entropi bonusu ve PPO Exercise 5: Entropi oyun alanı Exercise 6: PPO algoritmasını eğitme Exercise 7: Politika gradyanında yığın güncellemeleri Exercise 8: Minibatch ve DRL Exercise 9: Toplu güncellemelerle A2C Exercise 10: Optuna ile hiperparametre optimizasyonu Exercise 11: Hiperparametre mi değil mi?Exercise 12: Optuna ile uygulama Exercise 13: Tebrikler!