Perhitungan rugi Actor-Critic

Sebagai langkah terakhir sebelum Anda dapat melatih agen dengan A2C, tulislah fungsi calculate_losses() yang mengembalikan nilai rugi untuk kedua jaringan.

Sebagai referensi, berikut adalah ekspresi untuk fungsi rugi aktor dan kritikus masing-masing:

Latihan ini merupakan bagian dari kursus

Deep Reinforcement Learning dengan Python

Instruksi latihan

Hitung target TD.
Hitung rugi untuk jaringan Actor.
Hitung rugi untuk jaringan Critic.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

def calculate_losses(critic_network, action_log_prob, 
                     reward, state, next_state, done):
    value = critic_network(state)
    next_value = critic_network(next_state)
    # Calculate the TD target
    td_target = (____ + gamma * ____ * (1-done))
    td_error = td_target - value
    # Calculate the actor loss
    actor_loss = -____ * ____.detach()
    # Calculate the critic loss
    critic_loss = ____
    return actor_loss, critic_loss
  
actor_loss, critic_loss = calculate_losses(
        critic_network, action_log_prob, 
        reward, state, next_state, done
)
print(round(actor_loss.item(), 2), round(critic_loss.item(), 2))

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Deep Reinforcement Learning dengan Python

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Pelajari bagaimana deep reinforcement learning menyempurnakan Reinforcement Learning tradisional sekaligus mempelajari dan mengimplementasikan algoritma Deep Q Learning pertama Anda.

Exercise 1: Pengantar deep reinforcement learning Exercise 2: Penyiapan environment dan neural network Exercise 3: Loop pelatihan DRL Exercise 4: Pengantar deep Q learning Exercise 5: Deep learning dan DQN Exercise 6: Arsitektur Q-Network Exercise 7: Menginstansiasi Q-Network Exercise 8: Algoritma DQN dasar Exercise 9: Pemilihan aksi DQN dasar Exercise 10: Fungsi loss DQN sederhana Exercise 11: Melatih Barebone DQN

Dalami Deep Q-learning dengan mengimplementasikan algoritma DQN asli, menampilkan Experience Replay, epsilon-greediness, dan fixed Q-targets. Melampaui DQN, Anda kemudian akan mengeksplorasi dua ekstensi menarik yang meningkatkan kinerja dan stabilitas Deep Q-learning: Double DQN dan Prioritized Experience Replay.

Exercise 1: DQN dengan experience replay Exercise 2: Double-Ended Queue Exercise 3: Buffer experience replay Exercise 4: DQN dengan experience replay Exercise 5: Algoritma DQN yang lengkap Exercise 6: Epsilon-greediness Exercise 7: Fixed Q-targets Exercise 8: Mengimplementasikan algoritme DQN lengkap Exercise 9: Double DQN Exercise 10: Jaringan online dan jaringan target dalam DDQN Exercise 11: Melatih double DQN Exercise 12: Prioritized experience replay Exercise 13: Buffer prioritized experience replay Exercise 14: Sampling dari buffer PER Exercise 15: DQN dengan prioritized experience replay

Pelajari konsep dasar metode policy gradient yang terdapat dalam DRL. Anda akan memulai dengan teorema policy gradient, yang menjadi dasar metode ini. Selanjutnya, Anda akan mengimplementasikan algoritma REINFORCE, sebuah pendekatan yang kuat untuk mempelajari kebijakan. Bab ini kemudian akan memandu Anda melalui metode Actor-Critic, berfokus pada algoritma Advantage Actor-Critic (A2C), yang menggabungkan kekuatan metode policy gradient dan berbasis nilai untuk meningkatkan efisiensi dan stabilitas pembelajaran.

Exercise 1: Pengantar policy gradient Exercise 2: Arsitektur policy network Exercise 3: Bekerja dengan distribusi diskret Exercise 4: Policy gradient dan REINFORCE Exercise 5: Pemilihan aksi dalam REINFORCE Exercise 6: Melatih algoritma REINFORCE Exercise 7: Advantage Actor-Critic Exercise 8: Jaringan critic Exercise 9: Perhitungan rugi Actor-Critic

Latihan Saat Ini

Exercise 10: Melatih algoritma A2C

Jelajahi Proximal Policy Optimization (PPO) untuk kinerja DRL yang tangguh. Selanjutnya, Anda akan mempelajari penggunaan entropy bonus dalam PPO, yang mendorong eksplorasi dengan mencegah konvergensi prematur ke kebijakan deterministik. Anda juga akan mempelajari pembaruan batch dalam metode policy gradient. Terakhir, Anda akan mempelajari pengoptimalan hiperparameter dengan Optuna, alat yang ampuh untuk mengoptimalkan kinerja pada model DRL Anda.

Exercise 1: Optimisasi kebijakan proksimal Exercise 2: Rasio probabilitas yang di-klip Exercise 3: Fungsi objektif surrogate terpangkas (clipped)Exercise 4: Bonus entropi dan PPO Exercise 5: Ruang bermain entropi Exercise 6: Melatih algoritma PPO Exercise 7: Pembaruan batch dalam policy gradient Exercise 8: Minibatch dan DRL Exercise 9: A2C dengan pembaruan batch Exercise 10: Optimisasi hyperparameter dengan Optuna Exercise 11: Hyperparameter atau bukan?Exercise 12: Praktik langsung dengan Optuna Exercise 13: Selamat!