BaşlayınÜcretsiz başlayın

En iyi politikayı bulmak için policy iteration uygulama

Policy iteration, RL'de en iyi politikayı bulmak için temel bir tekniktir. İki ana adımdan oluşur: belirli bir politika için durum-değeri fonksiyonunu hesapladığın politika değerlendirme ve bu değerlere göre politikayı güncellediğin politika iyileştirme. Bu adımları, özel MyGridWorld ortamında en iyi politikaya yakınsayana kadar yinelemeli olarak uygulayacaksın.

Ajanın bir politikaya göre attığı adımları göstermek için render_policy() fonksiyonu kullanılacaktır.

compute_state_value(state, policy) ve compute_q_value(state, action, policy) fonksiyonları senin için önceden yüklendi.

Bu egzersiz, kursun bir parçasıdır

Python ile Gymnasium'da Reinforcement Learning

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Complete the policy evaluation function
def policy_evaluation(policy):
    V = {____: ____ for ____ in range(____)}
    return V
Kodu Düzenle ve Çalıştır