BaşlayınÜcretsiz Başlayın

Q-değerlerini hesaplama

Amacın, aşağıdaki politikayı izlerken özel MyGridWorld ortamındaki her durum-eylem çifti için eylem-değerlerini (Q-değerleri olarak da bilinir) hesaplamak. RL'de Q-değerleri kritiktir; çünkü belirli bir durumda belirli bir eylemi gerçekleştirdikten ve ardından politikaya uyduktan sonra beklenen getiriyi temsil eder.

exercise_policy.png

Ortam env olarak, ayrıca compute_state_value() fonksiyonu ve gerekli değişkenlerle (terminal_state, num_states, num_actions, policy, gamma) birlikte içe aktarıldı.

Bu egzersiz

Python ile Gymnasium'da Reinforcement Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Verilen bir state ve action için eylem-değerini hesaplamak üzere compute_q_value() fonksiyonunu tamamla.
  • Her bir anahtarı bir durum-eylem çiftini temsil eden ve karşılık gelen değeri o çiftin Q-değeri olan bir Q sözlüğü oluştur.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Complete the function to compute the action-value for a state-action pair
def compute_q_value(state, action):
    if state == terminal_state:
        return None   
    probability, next_state, reward, done = ____
    return ____

# Compute Q-values for each state-action pair
Q = {(____, ____): _____ for ____ in range(____) for ____ in range(____)}

print(Q)
Kodu Düzenle ve Çalıştır