Mendefinisikan kebijakan deterministik

Dalam latihan ini, Anda akan bekerja dengan lingkungan kustom bernama MyGridWorld, sama seperti yang Anda lihat di video. Lingkungan ini adalah grid world di mana tujuan agen adalah mencapai berlian secepat mungkin. Tugas Anda adalah mendefinisikan sebuah kebijakan yang mengarahkan perilaku agen seperti yang ditunjukkan pada gambar di bawah.

Image showing the policy:
states 0, 1, 6, 7 - action right.
states 2, 3 - action down.
states 4, 5 - action left.

Aksi direpresentasikan sebagai: (0 → left/kiri, 1 → down/bawah, 2 → right/kanan, 3 → up/atas).

Pustaka gymnasium telah diimpor untuk Anda sebagai gym beserta fungsi render().

Latihan ini merupakan bagian dari kursus

Reinforcement Learning dengan Gymnasium di Python

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create the environment
env = ____
state, info = env.reset()

# Define the policy
policy = ____

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Reinforcement Learning dengan Gymnasium di Python

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Telusuri dunia menarik Reinforcement Learning (RL) dengan mempelajari konsep, peran, dan penerapannya yang mendasar. Jelajahi kerangka RL, menyingkap interaksi agen-lingkungan. Anda juga akan belajar menggunakan pustaka Gymnasium untuk membuat lingkungan, memvisualisasikan keadaan, dan melakukan aksi, sehingga memperoleh dasar praktis dalam konsep dan aplikasi RL.

Exercise 1: Dasar-dasar reinforcement learning Exercise 2: Apa itu Reinforcement Learning?Exercise 3: RL vs. sub-domain ML lainnya Exercise 4: Skenario penerapan RL Exercise 5: Menavigasi kerangka kerja RL Exercise 6: Loop interaksi RL Exercise 7: Tugas RL episodik dan kontinu Exercise 8: Menghitung discounted returns untuk strategi agen Exercise 9: Berinteraksi dengan lingkungan Gymnasium Exercise 10: Menyiapkan lingkungan Mountain Car Exercise 11: Memvisualisasikan Lingkungan Mountain Car Exercise 12: Berinteraksi dengan environment Frozen Lake

Dalami lebih jauh dunia RL dengan berfokus pada pembelajaran berbasis model. Uraikan kompleksitas Markov Decision Processes (MDP) dengan memahami komponen-komponen esensialnya. Tingkatkan keterampilan Anda dengan mempelajari kebijakan (policy) dan fungsi nilai. Kuasai optimisasi kebijakan melalui teknik policy iteration dan value iteration.

Exercise 1: Proses Keputusan Markov Exercise 2: Komponen MDP Frozen Lake Kustom Exercise 3: Mengeksplorasi ruang state dan aksi Exercise 4: Probabilitas transisi dan reward Exercise 5: Kebijakan dan fungsi nilai-keadaan Exercise 6: Mendefinisikan kebijakan deterministik

Latihan Saat Ini

Exercise 7: Menghitung nilai-keadaan untuk sebuah kebijakan Exercise 8: Membandingkan kebijakan Exercise 9: Fungsi nilai-aksi Exercise 10: Menghitung Nilai Q Exercise 11: Meningkatkan sebuah kebijakan Exercise 12: Iterasi kebijakan dan iterasi nilai Exercise 13: Menerapkan policy iteration untuk kebijakan optimal Exercise 14: Mengimplementasikan value iteration

Jelajahi ranah dinamis Pembelajaran Tanpa Model (Model-Free Learning) dalam RL. Kenali metode dasar Monte Carlo, dan terapkan algoritma prediksi Monte Carlo kunjungan pertama (first-visit) dan setiap kunjungan (every-visit). Lanjutkan ke dunia Temporal Difference Learning dengan mengeksplorasi algoritma SARSA. Terakhir, selami Q-Learning, dan analisis konvergensinya pada lingkungan yang menantang.

Exercise 1: Metode Monte Carlo Exercise 2: Pembuatan episode untuk metode Monte Carlo Exercise 3: Mengimplementasikan Monte Carlo kunjungan-pertama Exercise 4: Menerapkan Every-Visit Monte Carlo Exercise 5: Pembelajaran perbedaan temporal Exercise 6: Menerapkan aturan pembaruan SARSA Exercise 7: Menyelesaikan Frozen Lake 8x8 dengan SARSA Exercise 8: Q-learning Exercise 9: Menerapkan aturan pembaruan Q-learning Exercise 10: Menyelesaikan Frozen Lake 8x8 dengan Q-learning Exercise 11: Mengevaluasi kebijakan pada Frozen Lake yang licin

Dalami strategi lanjutan dalam Model-Free RL, berfokus pada peningkatan algoritma pengambilan keputusan. Pelajari Expected SARSA untuk pembaruan kebijakan yang lebih akurat dan Double Q-learning untuk mengurangi bias estimasi berlebih. Jelajahi Trade-off Eksplorasi-Eksploitasi, kuasai strategi epsilon-greedy dan epsilon-decay untuk pemilihan aksi yang optimal. Tangani Masalah Multi-Armed Bandit dengan menerapkan strategi untuk menyelesaikan tantangan pengambilan keputusan dalam ketidakpastian.

Exercise 1: Expected SARSA Exercise 2: Aturan pembaruan Expected SARSA Exercise 3: Menerapkan Expected SARSA Exercise 4: Double Q-learning Exercise 5: Menerapkan aturan pembaruan Double Q-learning Exercise 6: Menerapkan Double Q-learning Exercise 7: Menyeimbangkan eksplorasi dan eksploitasi Exercise 8: Mendefinisikan fungsi epsilon-greedy Exercise 9: Menyelesaikan CliffWalking dengan strategi epsilon-greedy Exercise 10: Menyelesaikan CliffWalking dengan strategi epsilon-greedy tereduksi Exercise 11: Multi-armed bandits Exercise 12: Membuat multi-armed bandit Exercise 13: Menyelesaikan multi-armed bandit Exercise 14: Menilai konvergensi pada multi-armed bandit Exercise 15: Selamat!