Mendefinisikan kebijakan deterministik
Dalam latihan ini, Anda akan bekerja dengan lingkungan kustom bernama MyGridWorld, sama seperti yang Anda lihat di video. Lingkungan ini adalah grid world di mana tujuan agen adalah mencapai berlian secepat mungkin. Tugas Anda adalah mendefinisikan sebuah kebijakan yang mengarahkan perilaku agen seperti yang ditunjukkan pada gambar di bawah.

Aksi direpresentasikan sebagai: (0 → left/kiri, 1 → down/bawah, 2 → right/kanan, 3 → up/atas).
Pustaka gymnasium telah diimpor untuk Anda sebagai gym beserta fungsi render().
Latihan ini adalah bagian dari kursus
Reinforcement Learning dengan Gymnasium di Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create the environment
env = ____
state, info = env.reset()
# Define the policy
policy = ____