BaşlayınÜcretsiz başlayın

Deterministik bir politika tanımlama

Bu egzersizde, videoda gördüğünle aynı olan MyGridWorld adlı özel bir ortamla çalışacaksın. Bu ortam, ajanın amacının elmasa en hızlı şekilde ulaşmak olduğu bir ızgara dünyasıdır. Görevin, aşağıdaki şekilde belirtildiği gibi ajanın davranışını yönlendiren bir politika tanımlamak.

Image showing the policy: 
states 0, 1, 6, 7 - action right. 
states 2, 3 - action down. 
states 4, 5 - action left.

Eylemler şu şekilde temsil edilir: (0 → sol, 1 → aşağı, 2 → sağ, 3 → yukarı).

gymnasium kütüphanesi senin için gym adıyla ve render() fonksiyonu ile içe aktarıldı.

Bu egzersiz, kursun bir parçasıdır

Python ile Gymnasium'da Reinforcement Learning

Kursa Göz Atın

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create the environment
env = ____
state, info = env.reset()

# Define the policy
policy = ____
Kodu Düzenle ve Çalıştır