or
Latihan ini merupakan bagian dari kursus
Pelajari bagaimana deep reinforcement learning menyempurnakan Reinforcement Learning tradisional sekaligus mempelajari dan mengimplementasikan algoritma Deep Q Learning pertama Anda.
Dalami Deep Q-learning dengan mengimplementasikan algoritma DQN asli, menampilkan Experience Replay, epsilon-greediness, dan fixed Q-targets. Melampaui DQN, Anda kemudian akan mengeksplorasi dua ekstensi menarik yang meningkatkan kinerja dan stabilitas Deep Q-learning: Double DQN dan Prioritized Experience Replay.
Latihan Saat Ini
Pelajari konsep dasar metode policy gradient yang terdapat dalam DRL. Anda akan memulai dengan teorema policy gradient, yang menjadi dasar metode ini. Selanjutnya, Anda akan mengimplementasikan algoritma REINFORCE, sebuah pendekatan yang kuat untuk mempelajari kebijakan. Bab ini kemudian akan memandu Anda melalui metode Actor-Critic, berfokus pada algoritma Advantage Actor-Critic (A2C), yang menggabungkan kekuatan metode policy gradient dan berbasis nilai untuk meningkatkan efisiensi dan stabilitas pembelajaran.
Jelajahi Proximal Policy Optimization (PPO) untuk kinerja DRL yang tangguh. Selanjutnya, Anda akan mempelajari penggunaan entropy bonus dalam PPO, yang mendorong eksplorasi dengan mencegah konvergensi prematur ke kebijakan deterministik. Anda juga akan mempelajari pembaruan batch dalam metode policy gradient. Terakhir, Anda akan mempelajari pengoptimalan hiperparameter dengan Optuna, alat yang ampuh untuk mengoptimalkan kinerja pada model DRL Anda.