Bir politika için durum-değerlerini hesaplama
Aynı belirleyici ortam MyGridWorld içinde, şimdi önceki egzersizde tanımladığın politikanın ne kadar etkili olduğunu değerlendirmen gerekiyor. Bunu, bu politika altında her durum için durum-değer fonksiyonunu hesaplayarak yapacaksın.
Gerekli değişkenlerle birlikte ortam env olarak içe aktarıldı (terminal_state, num_states, policy, gamma).
Bu egzersiz, kursun bir parçasıdır
Python ile Gymnasium'da Reinforcement Learning
Egzersiz talimatları
- Verilen politika altında her durumun değerini hesaplamak için
compute_state_value()fonksiyonunu tamamla. - Her anahtarı
state, her değeri ise durum-değeri olan birstate_valuessözlüğü oluştur.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Complete the function
def compute_state_value(state):
if state == terminal_state:
return ____
action = ____
_, next_state, reward, _ = env.unwrapped.P[state][action][0]
return ____
# Compute all state values
state_values = {____: ____ for ____ in range(____)}
print(state_values)