Berinteraksi dengan environment Frozen Lake

Sekarang Anda akan menavigasi environment Frozen Lake, sebuah dunia berbentuk kisi (grid) di mana aksi menggerakkan agen ke arah tertentu. Tugas Anda adalah mengamati environment dengan saksama, lalu mendefinisikan secara manual daftar actions yang akan menavigasikan agen dari titik awal (kiri atas) ke tujuan (kanan bawah) tanpa terperosok ke lubang mana pun. Dalam environment Frozen Lake, aksi umumnya direpresentasikan sebagai:

0: kiri
1: bawah
2: kanan
3: atas

Setelah menjalankan kode Anda, pastikan untuk menelusuri plot Anda guna melihat jalur yang diambil dengan menggunakan tombol 'Previous Plot' dan 'Next Plot'. Ini akan membantu Anda memahami urutan aksi dan hasilnya.

gym dan plt telah diimpor bersama dengan fungsi render() dan variabel env.

Latihan ini merupakan bagian dari kursus

Reinforcement Learning dengan Gymnasium di Python

Instruksi latihan

Amati posisi agen di sisi kanan dan definisikan daftar actions untuk menavigasikan agen melintasi danau hingga mencapai tujuan.
Eksekusikan setiap aksi dalam daftar melalui perulangan for.
Render environment setelah setiap aksi untuk mengamati jalur agen.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Define the sequence of actions
actions = [____]

for action in actions:
  # Execute each action
  state, reward, terminated, _, _ = ____
  # Render the environment
  ____
  if terminated:
  	print("You reached the goal!")

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Reinforcement Learning dengan Gymnasium di Python

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Telusuri dunia menarik Reinforcement Learning (RL) dengan mempelajari konsep, peran, dan penerapannya yang mendasar. Jelajahi kerangka RL, menyingkap interaksi agen-lingkungan. Anda juga akan belajar menggunakan pustaka Gymnasium untuk membuat lingkungan, memvisualisasikan keadaan, dan melakukan aksi, sehingga memperoleh dasar praktis dalam konsep dan aplikasi RL.

Exercise 1: Dasar-dasar reinforcement learning Exercise 2: Apa itu Reinforcement Learning?Exercise 3: RL vs. sub-domain ML lainnya Exercise 4: Skenario penerapan RL Exercise 5: Menavigasi kerangka kerja RL Exercise 6: Loop interaksi RL Exercise 7: Tugas RL episodik dan kontinu Exercise 8: Menghitung discounted returns untuk strategi agen Exercise 9: Berinteraksi dengan lingkungan Gymnasium Exercise 10: Menyiapkan lingkungan Mountain Car Exercise 11: Memvisualisasikan Lingkungan Mountain Car Exercise 12: Berinteraksi dengan environment Frozen Lake

Latihan Saat Ini

Dalami lebih jauh dunia RL dengan berfokus pada pembelajaran berbasis model. Uraikan kompleksitas Markov Decision Processes (MDP) dengan memahami komponen-komponen esensialnya. Tingkatkan keterampilan Anda dengan mempelajari kebijakan (policy) dan fungsi nilai. Kuasai optimisasi kebijakan melalui teknik policy iteration dan value iteration.

Exercise 1: Proses Keputusan Markov Exercise 2: Komponen MDP Frozen Lake Kustom Exercise 3: Mengeksplorasi ruang state dan aksi Exercise 4: Probabilitas transisi dan reward Exercise 5: Kebijakan dan fungsi nilai-keadaan Exercise 6: Mendefinisikan kebijakan deterministik Exercise 7: Menghitung nilai-keadaan untuk sebuah kebijakan Exercise 8: Membandingkan kebijakan Exercise 9: Fungsi nilai-aksi Exercise 10: Menghitung Nilai Q Exercise 11: Meningkatkan sebuah kebijakan Exercise 12: Iterasi kebijakan dan iterasi nilai Exercise 13: Menerapkan policy iteration untuk kebijakan optimal Exercise 14: Mengimplementasikan value iteration

Jelajahi ranah dinamis Pembelajaran Tanpa Model (Model-Free Learning) dalam RL. Kenali metode dasar Monte Carlo, dan terapkan algoritma prediksi Monte Carlo kunjungan pertama (first-visit) dan setiap kunjungan (every-visit). Lanjutkan ke dunia Temporal Difference Learning dengan mengeksplorasi algoritma SARSA. Terakhir, selami Q-Learning, dan analisis konvergensinya pada lingkungan yang menantang.

Exercise 1: Metode Monte Carlo Exercise 2: Pembuatan episode untuk metode Monte Carlo Exercise 3: Mengimplementasikan Monte Carlo kunjungan-pertama Exercise 4: Menerapkan Every-Visit Monte Carlo Exercise 5: Pembelajaran perbedaan temporal Exercise 6: Menerapkan aturan pembaruan SARSA Exercise 7: Menyelesaikan Frozen Lake 8x8 dengan SARSA Exercise 8: Q-learning Exercise 9: Menerapkan aturan pembaruan Q-learning Exercise 10: Menyelesaikan Frozen Lake 8x8 dengan Q-learning Exercise 11: Mengevaluasi kebijakan pada Frozen Lake yang licin

Dalami strategi lanjutan dalam Model-Free RL, berfokus pada peningkatan algoritma pengambilan keputusan. Pelajari Expected SARSA untuk pembaruan kebijakan yang lebih akurat dan Double Q-learning untuk mengurangi bias estimasi berlebih. Jelajahi Trade-off Eksplorasi-Eksploitasi, kuasai strategi epsilon-greedy dan epsilon-decay untuk pemilihan aksi yang optimal. Tangani Masalah Multi-Armed Bandit dengan menerapkan strategi untuk menyelesaikan tantangan pengambilan keputusan dalam ketidakpastian.

Exercise 1: Expected SARSA Exercise 2: Aturan pembaruan Expected SARSA Exercise 3: Menerapkan Expected SARSA Exercise 4: Double Q-learning Exercise 5: Menerapkan aturan pembaruan Double Q-learning Exercise 6: Menerapkan Double Q-learning Exercise 7: Menyeimbangkan eksplorasi dan eksploitasi Exercise 8: Mendefinisikan fungsi epsilon-greedy Exercise 9: Menyelesaikan CliffWalking dengan strategi epsilon-greedy Exercise 10: Menyelesaikan CliffWalking dengan strategi epsilon-greedy tereduksi Exercise 11: Multi-armed bandits Exercise 12: Membuat multi-armed bandit Exercise 13: Menyelesaikan multi-armed bandit Exercise 14: Menilai konvergensi pada multi-armed bandit Exercise 15: Selamat!