Pemilihan aksi dalam REINFORCE

Tulis fungsi REINFORCE select_action, yang akan digunakan agen REINFORCE Anda untuk memilih aksi pada setiap langkah.

Dalam DQN, forward pass jaringan mengembalikan nilai Q; dalam REINFORCE, jaringan mengembalikan probabilitas aksi, dari mana aksi dapat diambil sampelnya secara langsung.

Sebuah policy network dan sebuah state telah dimuat di lingkungan Anda.

torch.distributions.Categorical telah diimpor sebagai Categorical.

Latihan ini merupakan bagian dari kursus

Deep Reinforcement Learning dengan Python

Instruksi latihan

Peroleh probabilitas aksi sebagai tensor torch.
Peroleh objek torch Distribution yang sesuai dengan probabilitas aksi tersebut.
Ambil sampel sebuah aksi dari distribusi tersebut.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

def select_action(policy_network, state):
  # Obtain the action probabilities
  action_probs = ____
  print('Action probabilities:', action_probs)
  # Instantiate the action distribution
  action_dist = Categorical(____)
  # Sample an action from the distribution
  action = ____
  log_prob = action_dist.log_prob(action)
  return action.item(), log_prob.reshape(1)

state = torch.rand(8)
action, log_prob = select_action(policy_network, state)
print('Sampled action index:', action)
print(f'Log probability of sampled action: {log_prob.item():.2f}')

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Deep Reinforcement Learning dengan Python

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Pelajari bagaimana deep reinforcement learning menyempurnakan Reinforcement Learning tradisional sekaligus mempelajari dan mengimplementasikan algoritma Deep Q Learning pertama Anda.

Exercise 1: Pengantar deep reinforcement learning Exercise 2: Penyiapan environment dan neural network Exercise 3: Loop pelatihan DRL Exercise 4: Pengantar deep Q learning Exercise 5: Deep learning dan DQN Exercise 6: Arsitektur Q-Network Exercise 7: Menginstansiasi Q-Network Exercise 8: Algoritma DQN dasar Exercise 9: Pemilihan aksi DQN dasar Exercise 10: Fungsi loss DQN sederhana Exercise 11: Melatih Barebone DQN

Dalami Deep Q-learning dengan mengimplementasikan algoritma DQN asli, menampilkan Experience Replay, epsilon-greediness, dan fixed Q-targets. Melampaui DQN, Anda kemudian akan mengeksplorasi dua ekstensi menarik yang meningkatkan kinerja dan stabilitas Deep Q-learning: Double DQN dan Prioritized Experience Replay.

Exercise 1: DQN dengan experience replay Exercise 2: Double-Ended Queue Exercise 3: Buffer experience replay Exercise 4: DQN dengan experience replay Exercise 5: Algoritma DQN yang lengkap Exercise 6: Epsilon-greediness Exercise 7: Fixed Q-targets Exercise 8: Mengimplementasikan algoritme DQN lengkap Exercise 9: Double DQN Exercise 10: Jaringan online dan jaringan target dalam DDQN Exercise 11: Melatih double DQN Exercise 12: Prioritized experience replay Exercise 13: Buffer prioritized experience replay Exercise 14: Sampling dari buffer PER Exercise 15: DQN dengan prioritized experience replay

Pelajari konsep dasar metode policy gradient yang terdapat dalam DRL. Anda akan memulai dengan teorema policy gradient, yang menjadi dasar metode ini. Selanjutnya, Anda akan mengimplementasikan algoritma REINFORCE, sebuah pendekatan yang kuat untuk mempelajari kebijakan. Bab ini kemudian akan memandu Anda melalui metode Actor-Critic, berfokus pada algoritma Advantage Actor-Critic (A2C), yang menggabungkan kekuatan metode policy gradient dan berbasis nilai untuk meningkatkan efisiensi dan stabilitas pembelajaran.

Exercise 1: Pengantar policy gradient Exercise 2: Arsitektur policy network Exercise 3: Bekerja dengan distribusi diskret Exercise 4: Policy gradient dan REINFORCE Exercise 5: Pemilihan aksi dalam REINFORCE

Latihan Saat Ini

Exercise 6: Melatih algoritma REINFORCE Exercise 7: Advantage Actor-Critic Exercise 8: Jaringan critic Exercise 9: Perhitungan rugi Actor-Critic Exercise 10: Melatih algoritma A2C

Jelajahi Proximal Policy Optimization (PPO) untuk kinerja DRL yang tangguh. Selanjutnya, Anda akan mempelajari penggunaan entropy bonus dalam PPO, yang mendorong eksplorasi dengan mencegah konvergensi prematur ke kebijakan deterministik. Anda juga akan mempelajari pembaruan batch dalam metode policy gradient. Terakhir, Anda akan mempelajari pengoptimalan hiperparameter dengan Optuna, alat yang ampuh untuk mengoptimalkan kinerja pada model DRL Anda.

Exercise 1: Optimisasi kebijakan proksimal Exercise 2: Rasio probabilitas yang di-klip Exercise 3: Fungsi objektif surrogate terpangkas (clipped)Exercise 4: Bonus entropi dan PPO Exercise 5: Ruang bermain entropi Exercise 6: Melatih algoritma PPO Exercise 7: Pembaruan batch dalam policy gradient Exercise 8: Minibatch dan DRL Exercise 9: A2C dengan pembaruan batch Exercise 10: Optimisasi hyperparameter dengan Optuna Exercise 11: Hyperparameter atau bukan?Exercise 12: Praktik langsung dengan Optuna Exercise 13: Selamat!