Bir politikayı iyileştirme
Önceki egzersizde, MyGridWorld ortamındaki her durum-eylem çifti için Q-değerlerini hesaplattın. Şimdi bu Q-değerlerini mevcut politikayı iyileştirmek için kullanacaksın. Politika iyileştirme, reinforcement learning'de kritik bir adımdır; her durumda beklenen faydayı (Q-değeri) en çoklayan eylemleri seçerek politikayı geliştirirsin. Politikayı iyileştirdikten sonra, bu geliştirilmiş politikaya göre yeni hareketleri görselleştireceksin.
Ortam env olarak, Q-değerleri Q olarak ve render() fonksiyonu birlikte içe aktarılmıştır.
Bu egzersiz
Python ile Gymnasium'da Reinforcement Learning
kursunun bir parçasıdırEgzersiz talimatları
- Q-değerlerine göre her durum için en iyi eylemi bul.
improved_policy'ye göre doğruaction'ı seç.- Sonucunu gözlemlemek için seçilen
action'ı yürüt.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
improved_policy = {}
for state in range(num_states-1):
# Find the best action for each state based on Q-values
max_action = ____
improved_policy[state] = max_action
terminated = False
while not terminated:
# Select action based on policy
action = ____
# Execute the action
state, reward, terminated, truncated, info = ____
render()