Deterministik bir politika tanımlama
Bu egzersizde, videoda gördüğünle aynı olan MyGridWorld adlı özel bir ortamla çalışacaksın. Bu ortam, ajanın amacının elmasa en hızlı şekilde ulaşmak olduğu bir ızgara dünyasıdır. Görevin, aşağıdaki şekilde belirtildiği gibi ajanın davranışını yönlendiren bir politika tanımlamak.

Eylemler şu şekilde temsil edilir: (0 → sol, 1 → aşağı, 2 → sağ, 3 → yukarı).
gymnasium kütüphanesi senin için gym adıyla ve render() fonksiyonu ile içe aktarıldı.
Bu egzersiz
Python ile Gymnasium'da Reinforcement Learning
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create the environment
env = ____
state, info = env.reset()
# Define the policy
policy = ____