Deterministik bir politika tanımlama
Bu egzersizde, videoda gördüğünle aynı olan MyGridWorld adlı özel bir ortamla çalışacaksın. Bu ortam, ajanın amacının elmasa en hızlı şekilde ulaşmak olduğu bir ızgara dünyasıdır. Görevin, aşağıdaki şekilde belirtildiği gibi ajanın davranışını yönlendiren bir politika tanımlamak.

Eylemler şu şekilde temsil edilir: (0 → sol, 1 → aşağı, 2 → sağ, 3 → yukarı).
gymnasium kütüphanesi senin için gym adıyla ve render() fonksiyonu ile içe aktarıldı.
Bu egzersiz, kursun bir parçasıdır
Python ile Gymnasium'da Reinforcement Learning
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Create the environment
env = ____
state, info = env.reset()
# Define the policy
policy = ____