Jaringan online dan jaringan target dalam DDQN

Dalam Double DQN, seperti pada DQN dengan Q-target tetap, ada dua jaringan saraf yang digunakan: jaringan online dan jaringan target. Penting untuk memahami tujuan masing-masing dan peran yang dijalankan dalam loop pelatihan DDQN.

Latihan ini merupakan bagian dari kursus

Deep Reinforcement Learning dengan Python

Latihan interaktif langsung

Ubah teori menjadi aksi dengan salah satu latihan interaktif kami

Latihan ini merupakan bagian dari kursus

Deep Reinforcement Learning dengan Python

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Pelajari bagaimana deep reinforcement learning menyempurnakan Reinforcement Learning tradisional sekaligus mempelajari dan mengimplementasikan algoritma Deep Q Learning pertama Anda.

Exercise 1: Pengantar deep reinforcement learning Exercise 2: Penyiapan environment dan neural network Exercise 3: Loop pelatihan DRL Exercise 4: Pengantar deep Q learning Exercise 5: Deep learning dan DQN Exercise 6: Arsitektur Q-Network Exercise 7: Menginstansiasi Q-Network Exercise 8: Algoritma DQN dasar Exercise 9: Pemilihan aksi DQN dasar Exercise 10: Fungsi loss DQN sederhana Exercise 11: Melatih Barebone DQN

Dalami Deep Q-learning dengan mengimplementasikan algoritma DQN asli, menampilkan Experience Replay, epsilon-greediness, dan fixed Q-targets. Melampaui DQN, Anda kemudian akan mengeksplorasi dua ekstensi menarik yang meningkatkan kinerja dan stabilitas Deep Q-learning: Double DQN dan Prioritized Experience Replay.

Exercise 1: DQN dengan experience replay Exercise 2: Double-Ended Queue Exercise 3: Buffer experience replay Exercise 4: DQN dengan experience replay Exercise 5: Algoritma DQN yang lengkap Exercise 6: Epsilon-greediness Exercise 7: Fixed Q-targets Exercise 8: Mengimplementasikan algoritme DQN lengkap Exercise 9: Double DQN Exercise 10: Jaringan online dan jaringan target dalam DDQN

Latihan Saat Ini

Exercise 11: Melatih double DQN Exercise 12: Prioritized experience replay Exercise 13: Buffer prioritized experience replay Exercise 14: Sampling dari buffer PER Exercise 15: DQN dengan prioritized experience replay

Pelajari konsep dasar metode policy gradient yang terdapat dalam DRL. Anda akan memulai dengan teorema policy gradient, yang menjadi dasar metode ini. Selanjutnya, Anda akan mengimplementasikan algoritma REINFORCE, sebuah pendekatan yang kuat untuk mempelajari kebijakan. Bab ini kemudian akan memandu Anda melalui metode Actor-Critic, berfokus pada algoritma Advantage Actor-Critic (A2C), yang menggabungkan kekuatan metode policy gradient dan berbasis nilai untuk meningkatkan efisiensi dan stabilitas pembelajaran.

Exercise 1: Pengantar policy gradient Exercise 2: Arsitektur policy network Exercise 3: Bekerja dengan distribusi diskret Exercise 4: Policy gradient dan REINFORCE Exercise 5: Pemilihan aksi dalam REINFORCE Exercise 6: Melatih algoritma REINFORCE Exercise 7: Advantage Actor-Critic Exercise 8: Jaringan critic Exercise 9: Perhitungan rugi Actor-Critic Exercise 10: Melatih algoritma A2C

Jelajahi Proximal Policy Optimization (PPO) untuk kinerja DRL yang tangguh. Selanjutnya, Anda akan mempelajari penggunaan entropy bonus dalam PPO, yang mendorong eksplorasi dengan mencegah konvergensi prematur ke kebijakan deterministik. Anda juga akan mempelajari pembaruan batch dalam metode policy gradient. Terakhir, Anda akan mempelajari pengoptimalan hiperparameter dengan Optuna, alat yang ampuh untuk mengoptimalkan kinerja pada model DRL Anda.

Exercise 1: Optimisasi kebijakan proksimal Exercise 2: Rasio probabilitas yang di-klip Exercise 3: Fungsi objektif surrogate terpangkas (clipped)Exercise 4: Bonus entropi dan PPO Exercise 5: Ruang bermain entropi Exercise 6: Melatih algoritma PPO Exercise 7: Pembaruan batch dalam policy gradient Exercise 8: Minibatch dan DRL Exercise 9: A2C dengan pembaruan batch Exercise 10: Optimisasi hyperparameter dengan Optuna Exercise 11: Hyperparameter atau bukan?Exercise 12: Praktik langsung dengan Optuna Exercise 13: Selamat!