BaşlayınÜcretsiz Başlayın

Bir politika için durum-değerlerini hesaplama

Aynı belirleyici ortam MyGridWorld içinde, şimdi önceki egzersizde tanımladığın politikanın ne kadar etkili olduğunu değerlendirmen gerekiyor. Bunu, bu politika altında her durum için durum-değer fonksiyonunu hesaplayarak yapacaksın.

Gerekli değişkenlerle birlikte ortam env olarak içe aktarıldı (terminal_state, num_states, policy, gamma).

Bu egzersiz

Python ile Gymnasium'da Reinforcement Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Verilen politika altında her durumun değerini hesaplamak için compute_state_value() fonksiyonunu tamamla.
  • Her anahtarı state, her değeri ise durum-değeri olan bir state_values sözlüğü oluştur.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Complete the function
def compute_state_value(state):
    if state == terminal_state:
        return ____
    action = ____
    _, next_state, reward, _ = env.unwrapped.P[state][action][0]
    return ____

# Compute all state values 
state_values = {____: ____ for ____ in range(____)}

print(state_values)
Kodu Düzenle ve Çalıştır