or
Latihan ini merupakan bagian dari kursus
Telusuri dunia menarik Reinforcement Learning (RL) dengan mempelajari konsep, peran, dan penerapannya yang mendasar. Jelajahi kerangka RL, menyingkap interaksi agen-lingkungan. Anda juga akan belajar menggunakan pustaka Gymnasium untuk membuat lingkungan, memvisualisasikan keadaan, dan melakukan aksi, sehingga memperoleh dasar praktis dalam konsep dan aplikasi RL.
Dalami lebih jauh dunia RL dengan berfokus pada pembelajaran berbasis model. Uraikan kompleksitas Markov Decision Processes (MDP) dengan memahami komponen-komponen esensialnya. Tingkatkan keterampilan Anda dengan mempelajari kebijakan (policy) dan fungsi nilai. Kuasai optimisasi kebijakan melalui teknik policy iteration dan value iteration.
Jelajahi ranah dinamis Pembelajaran Tanpa Model (Model-Free Learning) dalam RL. Kenali metode dasar Monte Carlo, dan terapkan algoritma prediksi Monte Carlo kunjungan pertama (first-visit) dan setiap kunjungan (every-visit). Lanjutkan ke dunia Temporal Difference Learning dengan mengeksplorasi algoritma SARSA. Terakhir, selami Q-Learning, dan analisis konvergensinya pada lingkungan yang menantang.
Latihan Saat Ini
Dalami strategi lanjutan dalam Model-Free RL, berfokus pada peningkatan algoritma pengambilan keputusan. Pelajari Expected SARSA untuk pembaruan kebijakan yang lebih akurat dan Double Q-learning untuk mengurangi bias estimasi berlebih. Jelajahi Trade-off Eksplorasi-Eksploitasi, kuasai strategi epsilon-greedy dan epsilon-decay untuk pemilihan aksi yang optimal. Tangani Masalah Multi-Armed Bandit dengan menerapkan strategi untuk menyelesaikan tantangan pengambilan keputusan dalam ketidakpastian.