BaşlayınÜcretsiz Başlayın

Bir politikayı iyileştirme

Önceki egzersizde, MyGridWorld ortamındaki her durum-eylem çifti için Q-değerlerini hesaplattın. Şimdi bu Q-değerlerini mevcut politikayı iyileştirmek için kullanacaksın. Politika iyileştirme, reinforcement learning'de kritik bir adımdır; her durumda beklenen faydayı (Q-değeri) en çoklayan eylemleri seçerek politikayı geliştirirsin. Politikayı iyileştirdikten sonra, bu geliştirilmiş politikaya göre yeni hareketleri görselleştireceksin.

Ortam env olarak, Q-değerleri Q olarak ve render() fonksiyonu birlikte içe aktarılmıştır.

Bu egzersiz

Python ile Gymnasium'da Reinforcement Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Q-değerlerine göre her durum için en iyi eylemi bul.
  • improved_policy'ye göre doğru action'ı seç.
  • Sonucunu gözlemlemek için seçilen action'ı yürüt.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

improved_policy = {}

for state in range(num_states-1):
    # Find the best action for each state based on Q-values
    max_action = ____
    improved_policy[state] = max_action

terminated = False
while not terminated:
  # Select action based on policy 
  action = ____
  # Execute the action
  state, reward, terminated, truncated, info = ____
  render()
Kodu Düzenle ve Çalıştır