Pemilihan aksi DQN dasar

Fungsi select_action() memungkinkan agen memilih aksi dengan Q-value tertinggi pada setiap langkah.

Fungsi ini menerima Q-network dan state saat ini sebagai argumen, lalu mengembalikan indeks aksi dengan Q-value tertinggi.

Q-network telah diinstansiasi sebagai q_network, dan sebuah state acak telah dimuat ke lingkungan Anda dengan state = torch.rand(8) sebagai data contoh untuk Anda gunakan.

Latihan ini merupakan bagian dari kursus

Deep Reinforcement Learning dengan Python

Instruksi latihan

Hitung Q-value untuk setiap aksi pada state yang diberikan sebagai argumen.
Peroleh indeks yang sesuai dengan aksi yang memiliki Q-value tertinggi.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

def select_action(q_network, state):
    # Calculate the Q-values
    q_values = ____
    print("Q-values:", [round(x, 2) for x in q_values.tolist()])
    # Obtain the action index with highest Q-value
    action = torch.____.item()
    print(f"Action selected: {action}, with q-value {q_values[action]:.2f}")
    return action

select_action(q_network, state)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Deep Reinforcement Learning dengan Python

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Pelajari bagaimana deep reinforcement learning menyempurnakan Reinforcement Learning tradisional sekaligus mempelajari dan mengimplementasikan algoritma Deep Q Learning pertama Anda.

Exercise 1: Pengantar deep reinforcement learning Exercise 2: Penyiapan environment dan neural network Exercise 3: Loop pelatihan DRL Exercise 4: Pengantar deep Q learning Exercise 5: Deep learning dan DQN Exercise 6: Arsitektur Q-Network Exercise 7: Menginstansiasi Q-Network Exercise 8: Algoritma DQN dasar Exercise 9: Pemilihan aksi DQN dasar

Latihan Saat Ini

Exercise 10: Fungsi loss DQN sederhana Exercise 11: Melatih Barebone DQN

Dalami Deep Q-learning dengan mengimplementasikan algoritma DQN asli, menampilkan Experience Replay, epsilon-greediness, dan fixed Q-targets. Melampaui DQN, Anda kemudian akan mengeksplorasi dua ekstensi menarik yang meningkatkan kinerja dan stabilitas Deep Q-learning: Double DQN dan Prioritized Experience Replay.

Exercise 1: DQN dengan experience replay Exercise 2: Double-Ended Queue Exercise 3: Buffer experience replay Exercise 4: DQN dengan experience replay Exercise 5: Algoritma DQN yang lengkap Exercise 6: Epsilon-greediness Exercise 7: Fixed Q-targets Exercise 8: Mengimplementasikan algoritme DQN lengkap Exercise 9: Double DQN Exercise 10: Jaringan online dan jaringan target dalam DDQN Exercise 11: Melatih double DQN Exercise 12: Prioritized experience replay Exercise 13: Buffer prioritized experience replay Exercise 14: Sampling dari buffer PER Exercise 15: DQN dengan prioritized experience replay

Pelajari konsep dasar metode policy gradient yang terdapat dalam DRL. Anda akan memulai dengan teorema policy gradient, yang menjadi dasar metode ini. Selanjutnya, Anda akan mengimplementasikan algoritma REINFORCE, sebuah pendekatan yang kuat untuk mempelajari kebijakan. Bab ini kemudian akan memandu Anda melalui metode Actor-Critic, berfokus pada algoritma Advantage Actor-Critic (A2C), yang menggabungkan kekuatan metode policy gradient dan berbasis nilai untuk meningkatkan efisiensi dan stabilitas pembelajaran.

Exercise 1: Pengantar policy gradient Exercise 2: Arsitektur policy network Exercise 3: Bekerja dengan distribusi diskret Exercise 4: Policy gradient dan REINFORCE Exercise 5: Pemilihan aksi dalam REINFORCE Exercise 6: Melatih algoritma REINFORCE Exercise 7: Advantage Actor-Critic Exercise 8: Jaringan critic Exercise 9: Perhitungan rugi Actor-Critic Exercise 10: Melatih algoritma A2C

Jelajahi Proximal Policy Optimization (PPO) untuk kinerja DRL yang tangguh. Selanjutnya, Anda akan mempelajari penggunaan entropy bonus dalam PPO, yang mendorong eksplorasi dengan mencegah konvergensi prematur ke kebijakan deterministik. Anda juga akan mempelajari pembaruan batch dalam metode policy gradient. Terakhir, Anda akan mempelajari pengoptimalan hiperparameter dengan Optuna, alat yang ampuh untuk mengoptimalkan kinerja pada model DRL Anda.

Exercise 1: Optimisasi kebijakan proksimal Exercise 2: Rasio probabilitas yang di-klip Exercise 3: Fungsi objektif surrogate terpangkas (clipped)Exercise 4: Bonus entropi dan PPO Exercise 5: Ruang bermain entropi Exercise 6: Melatih algoritma PPO Exercise 7: Pembaruan batch dalam policy gradient Exercise 8: Minibatch dan DRL Exercise 9: A2C dengan pembaruan batch Exercise 10: Optimisasi hyperparameter dengan Optuna Exercise 11: Hyperparameter atau bukan?Exercise 12: Praktik langsung dengan Optuna Exercise 13: Selamat!