Temel DQN eylem seçimi
select_action() fonksiyonu, her adımda en yüksek Q-değerine sahip eylemi seçmeni sağlar.
Fonksiyon, argüman olarak Q-ağını ve mevcut durumu alır ve en yüksek Q-değerine sahip eylemin indeksini döndürür.
Q-ağı q_network olarak örneklenmiştir ve üzerinde çalışman için örnek veri sağlamak amacıyla ortamına rastgele bir durum state = torch.rand(8) ile yüklenmiştir.
Bu egzersiz
Python ile Deep Reinforcement Learning
kursunun bir parçasıdırEgzersiz talimatları
- Argüman olarak verilen durumda her eyleme karşılık gelen Q-değerlerini hesapla.
- En yüksek Q-değerine sahip eylemin indeksini elde et.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
def select_action(q_network, state):
# Calculate the Q-values
q_values = ____
print("Q-values:", [round(x, 2) for x in q_values.tolist()])
# Obtain the action index with highest Q-value
action = torch.____.item()
print(f"Action selected: {action}, with q-value {q_values[action]:.2f}")
return action
select_action(q_network, state)