Menghitung discounted returns untuk strategi agen

Discounted return membantu mengevaluasi total imbalan yang dapat diharapkan agen akumulasi dari waktu ke waktu, dengan mempertimbangkan bahwa imbalan di masa depan kurang bernilai dibandingkan imbalan segera. Anda diberikan ekspektasi imbalan untuk dua strategi berbeda (exp_rewards_strategy_1 dan exp_rewards_strategy_2) dari sebuah agen RL. Tugas Anda adalah menghitung discounted return untuk masing-masing strategi dan menentukan mana yang menghasilkan return lebih tinggi.

Pustaka numpy telah diimpor untuk Anda sebagai np.

Latihan ini merupakan bagian dari kursus

Reinforcement Learning dengan Gymnasium di Python

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

exp_rewards_strategy_1 = np.array([3, 2, -1, 5])

discount_factor = 0.9

# Compute discounts
discounts_strategy_1 = np.array([____ for i in range(len(exp_rewards_strategy_1))])

# Compute the discounted return
discounted_return_strategy_1 = np.sum(____)

print(f"The discounted return of the first strategy is {discounted_return_strategy_1}")

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Reinforcement Learning dengan Gymnasium di Python

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Telusuri dunia menarik Reinforcement Learning (RL) dengan mempelajari konsep, peran, dan penerapannya yang mendasar. Jelajahi kerangka RL, menyingkap interaksi agen-lingkungan. Anda juga akan belajar menggunakan pustaka Gymnasium untuk membuat lingkungan, memvisualisasikan keadaan, dan melakukan aksi, sehingga memperoleh dasar praktis dalam konsep dan aplikasi RL.

Exercise 1: Dasar-dasar reinforcement learning Exercise 2: Apa itu Reinforcement Learning?Exercise 3: RL vs. sub-domain ML lainnya Exercise 4: Skenario penerapan RL Exercise 5: Menavigasi kerangka kerja RL Exercise 6: Loop interaksi RL Exercise 7: Tugas RL episodik dan kontinu Exercise 8: Menghitung discounted returns untuk strategi agen

Latihan Saat Ini

Exercise 9: Berinteraksi dengan lingkungan Gymnasium Exercise 10: Menyiapkan lingkungan Mountain Car Exercise 11: Memvisualisasikan Lingkungan Mountain Car Exercise 12: Berinteraksi dengan environment Frozen Lake

Dalami lebih jauh dunia RL dengan berfokus pada pembelajaran berbasis model. Uraikan kompleksitas Markov Decision Processes (MDP) dengan memahami komponen-komponen esensialnya. Tingkatkan keterampilan Anda dengan mempelajari kebijakan (policy) dan fungsi nilai. Kuasai optimisasi kebijakan melalui teknik policy iteration dan value iteration.

Exercise 1: Proses Keputusan Markov Exercise 2: Komponen MDP Frozen Lake Kustom Exercise 3: Mengeksplorasi ruang state dan aksi Exercise 4: Probabilitas transisi dan reward Exercise 5: Kebijakan dan fungsi nilai-keadaan Exercise 6: Mendefinisikan kebijakan deterministik Exercise 7: Menghitung nilai-keadaan untuk sebuah kebijakan Exercise 8: Membandingkan kebijakan Exercise 9: Fungsi nilai-aksi Exercise 10: Menghitung Nilai Q Exercise 11: Meningkatkan sebuah kebijakan Exercise 12: Iterasi kebijakan dan iterasi nilai Exercise 13: Menerapkan policy iteration untuk kebijakan optimal Exercise 14: Mengimplementasikan value iteration

Jelajahi ranah dinamis Pembelajaran Tanpa Model (Model-Free Learning) dalam RL. Kenali metode dasar Monte Carlo, dan terapkan algoritma prediksi Monte Carlo kunjungan pertama (first-visit) dan setiap kunjungan (every-visit). Lanjutkan ke dunia Temporal Difference Learning dengan mengeksplorasi algoritma SARSA. Terakhir, selami Q-Learning, dan analisis konvergensinya pada lingkungan yang menantang.

Exercise 1: Metode Monte Carlo Exercise 2: Pembuatan episode untuk metode Monte Carlo Exercise 3: Mengimplementasikan Monte Carlo kunjungan-pertama Exercise 4: Menerapkan Every-Visit Monte Carlo Exercise 5: Pembelajaran perbedaan temporal Exercise 6: Menerapkan aturan pembaruan SARSA Exercise 7: Menyelesaikan Frozen Lake 8x8 dengan SARSA Exercise 8: Q-learning Exercise 9: Menerapkan aturan pembaruan Q-learning Exercise 10: Menyelesaikan Frozen Lake 8x8 dengan Q-learning Exercise 11: Mengevaluasi kebijakan pada Frozen Lake yang licin

Dalami strategi lanjutan dalam Model-Free RL, berfokus pada peningkatan algoritma pengambilan keputusan. Pelajari Expected SARSA untuk pembaruan kebijakan yang lebih akurat dan Double Q-learning untuk mengurangi bias estimasi berlebih. Jelajahi Trade-off Eksplorasi-Eksploitasi, kuasai strategi epsilon-greedy dan epsilon-decay untuk pemilihan aksi yang optimal. Tangani Masalah Multi-Armed Bandit dengan menerapkan strategi untuk menyelesaikan tantangan pengambilan keputusan dalam ketidakpastian.

Exercise 1: Expected SARSA Exercise 2: Aturan pembaruan Expected SARSA Exercise 3: Menerapkan Expected SARSA Exercise 4: Double Q-learning Exercise 5: Menerapkan aturan pembaruan Double Q-learning Exercise 6: Menerapkan Double Q-learning Exercise 7: Menyeimbangkan eksplorasi dan eksploitasi Exercise 8: Mendefinisikan fungsi epsilon-greedy Exercise 9: Menyelesaikan CliffWalking dengan strategi epsilon-greedy Exercise 10: Menyelesaikan CliffWalking dengan strategi epsilon-greedy tereduksi Exercise 11: Multi-armed bandits Exercise 12: Membuat multi-armed bandit Exercise 13: Menyelesaikan multi-armed bandit Exercise 14: Menilai konvergensi pada multi-armed bandit Exercise 15: Selamat!