BaşlayınÜcretsiz Başlayın

Deterministik bir politika tanımlama

Bu egzersizde, videoda gördüğünle aynı olan MyGridWorld adlı özel bir ortamla çalışacaksın. Bu ortam, ajanın amacının elmasa en hızlı şekilde ulaşmak olduğu bir ızgara dünyasıdır. Görevin, aşağıdaki şekilde belirtildiği gibi ajanın davranışını yönlendiren bir politika tanımlamak.

Image showing the policy: 
states 0, 1, 6, 7 - action right. 
states 2, 3 - action down. 
states 4, 5 - action left.

Eylemler şu şekilde temsil edilir: (0 → sol, 1 → aşağı, 2 → sağ, 3 → yukarı).

gymnasium kütüphanesi senin için gym adıyla ve render() fonksiyonu ile içe aktarıldı.

Bu egzersiz

Python ile Gymnasium'da Reinforcement Learning

kursunun bir parçasıdır
Kursu Görüntüle

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create the environment
env = ____
state, info = env.reset()

# Define the policy
policy = ____
Kodu Düzenle ve Çalıştır