Q-değerlerini hesaplama
Amacın, aşağıdaki politikayı izlerken özel MyGridWorld ortamındaki her durum-eylem çifti için eylem-değerlerini (Q-değerleri olarak da bilinir) hesaplamak. RL'de Q-değerleri kritiktir; çünkü belirli bir durumda belirli bir eylemi gerçekleştirdikten ve ardından politikaya uyduktan sonra beklenen getiriyi temsil eder.

Ortam env olarak, ayrıca compute_state_value() fonksiyonu ve gerekli değişkenlerle (terminal_state, num_states, num_actions, policy, gamma) birlikte içe aktarıldı.
Bu egzersiz
Python ile Gymnasium'da Reinforcement Learning
kursunun bir parçasıdırEgzersiz talimatları
- Verilen bir
stateveactioniçin eylem-değerini hesaplamak üzerecompute_q_value()fonksiyonunu tamamla. - Her bir anahtarı bir durum-eylem çiftini temsil eden ve karşılık gelen değeri o çiftin Q-değeri olan bir
Qsözlüğü oluştur.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Complete the function to compute the action-value for a state-action pair
def compute_q_value(state, action):
if state == terminal_state:
return None
probability, next_state, reward, done = ____
return ____
# Compute Q-values for each state-action pair
Q = {(____, ____): _____ for ____ in range(____) for ____ in range(____)}
print(Q)