Menghitung Nilai Q

Tujuan Anda adalah menghitung nilai aksi, atau Q-value, untuk setiap pasangan state-action pada lingkungan kustom MyGridWorld saat mengikuti kebijakan berikut. Dalam RL, Q-value penting karena merepresentasikan utilitas yang diharapkan dari mengeksekusi suatu aksi tertentu pada state tertentu, kemudian mengikuti kebijakan tersebut.

Lingkungan telah diimpor sebagai env bersama fungsi compute_state_value() dan variabel yang diperlukan (terminal_state, num_states, num_actions, policy, gamma).

Latihan ini merupakan bagian dari kursus

Reinforcement Learning dengan Gymnasium di Python

Instruksi latihan

Lengkapi fungsi compute_q_value() untuk menghitung nilai aksi untuk state dan action tertentu.
Buat dictionary Q di mana setiap key merepresentasikan pasangan state-action, dan value yang sesuai adalah Q-value untuk pasangan tersebut.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Complete the function to compute the action-value for a state-action pair
def compute_q_value(state, action):
    if state == terminal_state:
        return None   
    probability, next_state, reward, done = ____
    return ____

# Compute Q-values for each state-action pair
Q = {(____, ____): _____ for ____ in range(____) for ____ in range(____)}

print(Q)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Reinforcement Learning dengan Gymnasium di Python

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Telusuri dunia menarik Reinforcement Learning (RL) dengan mempelajari konsep, peran, dan penerapannya yang mendasar. Jelajahi kerangka RL, menyingkap interaksi agen-lingkungan. Anda juga akan belajar menggunakan pustaka Gymnasium untuk membuat lingkungan, memvisualisasikan keadaan, dan melakukan aksi, sehingga memperoleh dasar praktis dalam konsep dan aplikasi RL.

Exercise 1: Dasar-dasar reinforcement learning Exercise 2: Apa itu Reinforcement Learning?Exercise 3: RL vs. sub-domain ML lainnya Exercise 4: Skenario penerapan RL Exercise 5: Menavigasi kerangka kerja RL Exercise 6: Loop interaksi RL Exercise 7: Tugas RL episodik dan kontinu Exercise 8: Menghitung discounted returns untuk strategi agen Exercise 9: Berinteraksi dengan lingkungan Gymnasium Exercise 10: Menyiapkan lingkungan Mountain Car Exercise 11: Memvisualisasikan Lingkungan Mountain Car Exercise 12: Berinteraksi dengan environment Frozen Lake

Dalami lebih jauh dunia RL dengan berfokus pada pembelajaran berbasis model. Uraikan kompleksitas Markov Decision Processes (MDP) dengan memahami komponen-komponen esensialnya. Tingkatkan keterampilan Anda dengan mempelajari kebijakan (policy) dan fungsi nilai. Kuasai optimisasi kebijakan melalui teknik policy iteration dan value iteration.

Exercise 1: Proses Keputusan Markov Exercise 2: Komponen MDP Frozen Lake Kustom Exercise 3: Mengeksplorasi ruang state dan aksi Exercise 4: Probabilitas transisi dan reward Exercise 5: Kebijakan dan fungsi nilai-keadaan Exercise 6: Mendefinisikan kebijakan deterministik Exercise 7: Menghitung nilai-keadaan untuk sebuah kebijakan Exercise 8: Membandingkan kebijakan Exercise 9: Fungsi nilai-aksi Exercise 10: Menghitung Nilai Q

Latihan Saat Ini

Exercise 11: Meningkatkan sebuah kebijakan Exercise 12: Iterasi kebijakan dan iterasi nilai Exercise 13: Menerapkan policy iteration untuk kebijakan optimal Exercise 14: Mengimplementasikan value iteration

Jelajahi ranah dinamis Pembelajaran Tanpa Model (Model-Free Learning) dalam RL. Kenali metode dasar Monte Carlo, dan terapkan algoritma prediksi Monte Carlo kunjungan pertama (first-visit) dan setiap kunjungan (every-visit). Lanjutkan ke dunia Temporal Difference Learning dengan mengeksplorasi algoritma SARSA. Terakhir, selami Q-Learning, dan analisis konvergensinya pada lingkungan yang menantang.

Exercise 1: Metode Monte Carlo Exercise 2: Pembuatan episode untuk metode Monte Carlo Exercise 3: Mengimplementasikan Monte Carlo kunjungan-pertama Exercise 4: Menerapkan Every-Visit Monte Carlo Exercise 5: Pembelajaran perbedaan temporal Exercise 6: Menerapkan aturan pembaruan SARSA Exercise 7: Menyelesaikan Frozen Lake 8x8 dengan SARSA Exercise 8: Q-learning Exercise 9: Menerapkan aturan pembaruan Q-learning Exercise 10: Menyelesaikan Frozen Lake 8x8 dengan Q-learning Exercise 11: Mengevaluasi kebijakan pada Frozen Lake yang licin

Dalami strategi lanjutan dalam Model-Free RL, berfokus pada peningkatan algoritma pengambilan keputusan. Pelajari Expected SARSA untuk pembaruan kebijakan yang lebih akurat dan Double Q-learning untuk mengurangi bias estimasi berlebih. Jelajahi Trade-off Eksplorasi-Eksploitasi, kuasai strategi epsilon-greedy dan epsilon-decay untuk pemilihan aksi yang optimal. Tangani Masalah Multi-Armed Bandit dengan menerapkan strategi untuk menyelesaikan tantangan pengambilan keputusan dalam ketidakpastian.

Exercise 1: Expected SARSA Exercise 2: Aturan pembaruan Expected SARSA Exercise 3: Menerapkan Expected SARSA Exercise 4: Double Q-learning Exercise 5: Menerapkan aturan pembaruan Double Q-learning Exercise 6: Menerapkan Double Q-learning Exercise 7: Menyeimbangkan eksplorasi dan eksploitasi Exercise 8: Mendefinisikan fungsi epsilon-greedy Exercise 9: Menyelesaikan CliffWalking dengan strategi epsilon-greedy Exercise 10: Menyelesaikan CliffWalking dengan strategi epsilon-greedy tereduksi Exercise 11: Multi-armed bandits Exercise 12: Membuat multi-armed bandit Exercise 13: Menyelesaikan multi-armed bandit Exercise 14: Menilai konvergensi pada multi-armed bandit Exercise 15: Selamat!