BaşlayınÜcretsiz Başlayın

Politikaları karşılaştırma

Sana MyGridWorld ortamındaki iki farklı politikaya karşılık gelen iki durum değer fonksiyonu (value_function_1 ve value_function_2) verildi. Görevin, bu durum değer fonksiyonlarını her bir durum bazında karşılaştırarak hangi politikanın daha etkili olduğunu belirlemek.

num_states değişkeni kullanımına hazırdır.

Bu egzersiz

Python ile Gymnasium'da Reinforcement Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Her bir elemanı, value_function_1 içindeki durum değerinin value_function_2 içindeki durum değerinden büyük veya ona eşit olup olmadığını kontrol eden boole değerlerinden oluşan one_is_better adlı bir liste oluştur.
  • Her bir elemanı, value_function_2 içindeki durum değerinin value_function_1 içindeki durum değerinden büyük veya ona eşit olup olmadığını kontrol eden boole değerlerinden oluşan two_is_better adlı bir liste oluştur.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

value_function_1 = {0: 1, 1: 2, 2: 3, 3: 7, 4: 6, 5: 4, 6: 8, 7: 10, 8: 0}
value_function_2 = {0: 7, 1: 8, 2: 9, 3: 7, 4: 9, 5: 10, 6: 8, 7: 10, 8: 0}

# Check for each value in policy 1 if it is better than policy 2
one_is_better = [____ >= ____ for state in range(num_states)]

# Check for each value in policy 2 if it is better than policy 1
two_is_better = [____ >= ____ for state in range(num_states)]

if all(one_is_better):
  print("Policy 1 is better.")
elif all(two_is_better):
  print("Policy 2 is better.")
else:
  print("Neither policy is uniformly better across all states.")
Kodu Düzenle ve Çalıştır