En iyi politikayı bulmak için policy iteration uygulama
Policy iteration, RL'de en iyi politikayı bulmak için temel bir tekniktir. İki ana adımdan oluşur: belirli bir politika için durum-değeri fonksiyonunu hesapladığın politika değerlendirme ve bu değerlere göre politikayı güncellediğin politika iyileştirme. Bu adımları, özel MyGridWorld ortamında en iyi politikaya yakınsayana kadar yinelemeli olarak uygulayacaksın.
Ajanın bir politikaya göre attığı adımları göstermek için render_policy() fonksiyonu kullanılacaktır.
compute_state_value(state, policy) ve compute_q_value(state, action, policy) fonksiyonları senin için önceden yüklendi.
Bu egzersiz
Python ile Gymnasium'da Reinforcement Learning
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Complete the policy evaluation function
def policy_evaluation(policy):
V = {____: ____ for ____ in range(____)}
return V