Bir politika için durum-değerlerini hesaplama
Aynı belirleyici ortam MyGridWorld içinde, şimdi önceki egzersizde tanımladığın politikanın ne kadar etkili olduğunu değerlendirmen gerekiyor. Bunu, bu politika altında her durum için durum-değer fonksiyonunu hesaplayarak yapacaksın.
Gerekli değişkenlerle birlikte ortam env olarak içe aktarıldı (terminal_state, num_states, policy, gamma).
Bu egzersiz
Python ile Gymnasium'da Reinforcement Learning
kursunun bir parçasıdırEgzersiz talimatları
- Verilen politika altında her durumun değerini hesaplamak için
compute_state_value()fonksiyonunu tamamla. - Her anahtarı
state, her değeri ise durum-değeri olan birstate_valuessözlüğü oluştur.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Complete the function
def compute_state_value(state):
if state == terminal_state:
return ____
action = ____
_, next_state, reward, _ = env.unwrapped.P[state][action][0]
return ____
# Compute all state values
state_values = {____: ____ for ____ in range(____)}
print(state_values)