BaşlayınÜcretsiz Başlayın

Temel DQN eylem seçimi

select_action() fonksiyonu, her adımda en yüksek Q-değerine sahip eylemi seçmeni sağlar.

Fonksiyon, argüman olarak Q-ağını ve mevcut durumu alır ve en yüksek Q-değerine sahip eylemin indeksini döndürür.

Q-ağı q_network olarak örneklenmiştir ve üzerinde çalışman için örnek veri sağlamak amacıyla ortamına rastgele bir durum state = torch.rand(8) ile yüklenmiştir.

Bu egzersiz

Python ile Deep Reinforcement Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Argüman olarak verilen durumda her eyleme karşılık gelen Q-değerlerini hesapla.
  • En yüksek Q-değerine sahip eylemin indeksini elde et.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

def select_action(q_network, state):
    # Calculate the Q-values
    q_values = ____
    print("Q-values:", [round(x, 2) for x in q_values.tolist()])
    # Obtain the action index with highest Q-value
    action = torch.____.item()
    print(f"Action selected: {action}, with q-value {q_values[action]:.2f}")
    return action

select_action(q_network, state)
Kodu Düzenle ve Çalıştır