Bekerja dengan distribusi diskret

Anda akan segera bekerja dengan kebijakan stokastik: kebijakan yang merepresentasikan perilaku agen pada suatu keadaan sebagai distribusi probabilitas atas aksi.

PyTorch dapat merepresentasikan distribusi diskret menggunakan kelas torch.distributions.Categorical, yang akan Anda coba sekarang.

Anda akan melihat bahwa sebenarnya tidak perlu angka-angka yang digunakan sebagai masukan berjumlah 1 seperti probabilitas; angka-angka tersebut akan dinormalisasi secara otomatis.

Latihan ini merupakan bagian dari kursus

Deep Reinforcement Learning dengan Python

Instruksi latihan

Instansiasikan distribusi probabilitas kategorikal.
Ambil satu sampel dari distribusi tersebut.
Tentukan 3 angka positif yang berjumlah 1, untuk bertindak sebagai probabilitas.
Tentukan 5 angka positif; Categorical akan menormalkannya secara diam-diam untuk memperoleh probabilitas.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

from torch.distributions import Categorical

def sample_from_distribution(probs):
    print(f"\nInput: {probs}")
    probs = torch.tensor(probs, dtype=torch.float32)
    # Instantiate the categorical distribution
    dist = ____(probs)
    # Take one sample from the distribution
    sampled_index = ____
    print(f"Taking one sample: index {sampled_index}, with associated probability {dist.probs[sampled_index]:.2f}")

# Specify 3 positive numbers summing to 1
sample_from_distribution([.3, ____, ____])
# Specify 5 positive numbers that do not sum to 1
sample_from_distribution([2, ____, ____, ____, ____])

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Deep Reinforcement Learning dengan Python

SkillTag.level.advancedSkillTag.label

4.8+

Mulai Kursus Gratis

Pelajari bagaimana deep reinforcement learning menyempurnakan Reinforcement Learning tradisional sekaligus mempelajari dan mengimplementasikan algoritma Deep Q Learning pertama Anda.

Exercise 1: Pengantar deep reinforcement learning Exercise 2: Penyiapan environment dan neural network Exercise 3: Loop pelatihan DRL Exercise 4: Pengantar deep Q learning Exercise 5: Deep learning dan DQN Exercise 6: Arsitektur Q-Network Exercise 7: Menginstansiasi Q-Network Exercise 8: Algoritma DQN dasar Exercise 9: Pemilihan aksi DQN dasar Exercise 10: Fungsi loss DQN sederhana Exercise 11: Melatih Barebone DQN

Dalami Deep Q-learning dengan mengimplementasikan algoritma DQN asli, menampilkan Experience Replay, epsilon-greediness, dan fixed Q-targets. Melampaui DQN, Anda kemudian akan mengeksplorasi dua ekstensi menarik yang meningkatkan kinerja dan stabilitas Deep Q-learning: Double DQN dan Prioritized Experience Replay.

Exercise 1: DQN dengan experience replay Exercise 2: Double-Ended Queue Exercise 3: Buffer experience replay Exercise 4: DQN dengan experience replay Exercise 5: Algoritma DQN yang lengkap Exercise 6: Epsilon-greediness Exercise 7: Fixed Q-targets Exercise 8: Mengimplementasikan algoritme DQN lengkap Exercise 9: Double DQN Exercise 10: Jaringan online dan jaringan target dalam DDQN Exercise 11: Melatih double DQN Exercise 12: Prioritized experience replay Exercise 13: Buffer prioritized experience replay Exercise 14: Sampling dari buffer PER Exercise 15: DQN dengan prioritized experience replay

Pelajari konsep dasar metode policy gradient yang terdapat dalam DRL. Anda akan memulai dengan teorema policy gradient, yang menjadi dasar metode ini. Selanjutnya, Anda akan mengimplementasikan algoritma REINFORCE, sebuah pendekatan yang kuat untuk mempelajari kebijakan. Bab ini kemudian akan memandu Anda melalui metode Actor-Critic, berfokus pada algoritma Advantage Actor-Critic (A2C), yang menggabungkan kekuatan metode policy gradient dan berbasis nilai untuk meningkatkan efisiensi dan stabilitas pembelajaran.

Exercise 1: Pengantar policy gradient Exercise 2: Arsitektur policy network Exercise 3: Bekerja dengan distribusi diskret

Latihan Saat Ini

Exercise 4: Policy gradient dan REINFORCE Exercise 5: Pemilihan aksi dalam REINFORCE Exercise 6: Melatih algoritma REINFORCE Exercise 7: Advantage Actor-Critic Exercise 8: Jaringan critic Exercise 9: Perhitungan rugi Actor-Critic Exercise 10: Melatih algoritma A2C

Jelajahi Proximal Policy Optimization (PPO) untuk kinerja DRL yang tangguh. Selanjutnya, Anda akan mempelajari penggunaan entropy bonus dalam PPO, yang mendorong eksplorasi dengan mencegah konvergensi prematur ke kebijakan deterministik. Anda juga akan mempelajari pembaruan batch dalam metode policy gradient. Terakhir, Anda akan mempelajari pengoptimalan hiperparameter dengan Optuna, alat yang ampuh untuk mengoptimalkan kinerja pada model DRL Anda.

Exercise 1: Optimisasi kebijakan proksimal Exercise 2: Rasio probabilitas yang di-klip Exercise 3: Fungsi objektif surrogate terpangkas (clipped)Exercise 4: Bonus entropi dan PPO Exercise 5: Ruang bermain entropi Exercise 6: Melatih algoritma PPO Exercise 7: Pembaruan batch dalam policy gradient Exercise 8: Minibatch dan DRL Exercise 9: A2C dengan pembaruan batch Exercise 10: Optimisasi hyperparameter dengan Optuna Exercise 11: Hyperparameter atau bukan?Exercise 12: Praktik langsung dengan Optuna Exercise 13: Selamat!