Mendefinisikan kebijakan deterministik
Dalam latihan ini, Anda akan bekerja dengan lingkungan kustom bernama MyGridWorld, sama seperti yang Anda lihat di video. Lingkungan ini adalah grid world di mana tujuan agen adalah mencapai berlian secepat mungkin. Tugas Anda adalah mendefinisikan sebuah kebijakan yang mengarahkan perilaku agen seperti yang ditunjukkan pada gambar di bawah.

Aksi direpresentasikan sebagai: (0 → left/kiri, 1 → down/bawah, 2 → right/kanan, 3 → up/atas).
Pustaka gymnasium telah diimpor untuk Anda sebagai gym beserta fungsi render().
Latihan ini merupakan bagian dari kursus
Reinforcement Learning dengan Gymnasium di Python
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Create the environment
env = ____
state, info = env.reset()
# Define the policy
policy = ____