Probabilitas transisi dan reward

Lingkungan Cliff Walking memiliki 48 state, diberi nomor dari 0 hingga 47, baris demi baris, dari pojok kiri atas (0) hingga pojok kanan bawah (47). Tujuan Anda adalah menelusuri struktur probabilitas transisi dan reward di dalam pengaturan ini. Perhatikan bahwa semua reward, termasuk reward saat mencapai goal, bernilai negatif di lingkungan ini. Desain ini menekankan pada meminimalkan jumlah langkah, karena setiap langkah akan dikenai penalti, sehingga efisiensi menjadi aspek kunci dalam merancang algoritme pembelajaran yang efektif.

Pustaka gymnasium telah diimpor sebagai gym dan lingkungannya sebagai env. Selain itu, num_states dan num_actions dari latihan sebelumnya juga telah diimpor.

Image showing the cliff walking environment.

Latihan ini merupakan bagian dari kursus

Reinforcement Learning dengan Gymnasium di Python

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Choose the state
state = ____

# Extract transitions for each state-action pair
for action in range(num_actions):
    transitions = ____
    # Print details of each transition
    for transition in transitions:
        ____, ____, ____, ____ = transition
        print(f"Probability: {probability}, Next State: {next_state}, Reward: {reward}, Done: {done}")

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Reinforcement Learning dengan Gymnasium di Python

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Telusuri dunia menarik Reinforcement Learning (RL) dengan mempelajari konsep, peran, dan penerapannya yang mendasar. Jelajahi kerangka RL, menyingkap interaksi agen-lingkungan. Anda juga akan belajar menggunakan pustaka Gymnasium untuk membuat lingkungan, memvisualisasikan keadaan, dan melakukan aksi, sehingga memperoleh dasar praktis dalam konsep dan aplikasi RL.

Exercise 1: Dasar-dasar reinforcement learning Exercise 2: Apa itu Reinforcement Learning?Exercise 3: RL vs. sub-domain ML lainnya Exercise 4: Skenario penerapan RL Exercise 5: Menavigasi kerangka kerja RL Exercise 6: Loop interaksi RL Exercise 7: Tugas RL episodik dan kontinu Exercise 8: Menghitung discounted returns untuk strategi agen Exercise 9: Berinteraksi dengan lingkungan Gymnasium Exercise 10: Menyiapkan lingkungan Mountain Car Exercise 11: Memvisualisasikan Lingkungan Mountain Car Exercise 12: Berinteraksi dengan environment Frozen Lake

Dalami lebih jauh dunia RL dengan berfokus pada pembelajaran berbasis model. Uraikan kompleksitas Markov Decision Processes (MDP) dengan memahami komponen-komponen esensialnya. Tingkatkan keterampilan Anda dengan mempelajari kebijakan (policy) dan fungsi nilai. Kuasai optimisasi kebijakan melalui teknik policy iteration dan value iteration.

Exercise 1: Proses Keputusan Markov Exercise 2: Komponen MDP Frozen Lake Kustom Exercise 3: Mengeksplorasi ruang state dan aksi Exercise 4: Probabilitas transisi dan reward

Latihan Saat Ini

Exercise 5: Kebijakan dan fungsi nilai-keadaan Exercise 6: Mendefinisikan kebijakan deterministik Exercise 7: Menghitung nilai-keadaan untuk sebuah kebijakan Exercise 8: Membandingkan kebijakan Exercise 9: Fungsi nilai-aksi Exercise 10: Menghitung Nilai Q Exercise 11: Meningkatkan sebuah kebijakan Exercise 12: Iterasi kebijakan dan iterasi nilai Exercise 13: Menerapkan policy iteration untuk kebijakan optimal Exercise 14: Mengimplementasikan value iteration

Jelajahi ranah dinamis Pembelajaran Tanpa Model (Model-Free Learning) dalam RL. Kenali metode dasar Monte Carlo, dan terapkan algoritma prediksi Monte Carlo kunjungan pertama (first-visit) dan setiap kunjungan (every-visit). Lanjutkan ke dunia Temporal Difference Learning dengan mengeksplorasi algoritma SARSA. Terakhir, selami Q-Learning, dan analisis konvergensinya pada lingkungan yang menantang.

Exercise 1: Metode Monte Carlo Exercise 2: Pembuatan episode untuk metode Monte Carlo Exercise 3: Mengimplementasikan Monte Carlo kunjungan-pertama Exercise 4: Menerapkan Every-Visit Monte Carlo Exercise 5: Pembelajaran perbedaan temporal Exercise 6: Menerapkan aturan pembaruan SARSA Exercise 7: Menyelesaikan Frozen Lake 8x8 dengan SARSA Exercise 8: Q-learning Exercise 9: Menerapkan aturan pembaruan Q-learning Exercise 10: Menyelesaikan Frozen Lake 8x8 dengan Q-learning Exercise 11: Mengevaluasi kebijakan pada Frozen Lake yang licin

Dalami strategi lanjutan dalam Model-Free RL, berfokus pada peningkatan algoritma pengambilan keputusan. Pelajari Expected SARSA untuk pembaruan kebijakan yang lebih akurat dan Double Q-learning untuk mengurangi bias estimasi berlebih. Jelajahi Trade-off Eksplorasi-Eksploitasi, kuasai strategi epsilon-greedy dan epsilon-decay untuk pemilihan aksi yang optimal. Tangani Masalah Multi-Armed Bandit dengan menerapkan strategi untuk menyelesaikan tantangan pengambilan keputusan dalam ketidakpastian.

Exercise 1: Expected SARSA Exercise 2: Aturan pembaruan Expected SARSA Exercise 3: Menerapkan Expected SARSA Exercise 4: Double Q-learning Exercise 5: Menerapkan aturan pembaruan Double Q-learning Exercise 6: Menerapkan Double Q-learning Exercise 7: Menyeimbangkan eksplorasi dan eksploitasi Exercise 8: Mendefinisikan fungsi epsilon-greedy Exercise 9: Menyelesaikan CliffWalking dengan strategi epsilon-greedy Exercise 10: Menyelesaikan CliffWalking dengan strategi epsilon-greedy tereduksi Exercise 11: Multi-armed bandits Exercise 12: Membuat multi-armed bandit Exercise 13: Menyelesaikan multi-armed bandit Exercise 14: Menilai konvergensi pada multi-armed bandit Exercise 15: Selamat!