Pelajari bagaimana deep reinforcement learning menyempurnakan Reinforcement Learning tradisional sekaligus mempelajari dan mengimplementasikan algoritma Deep Q Learning pertama Anda.

Pengantar deep reinforcement learning

Penyiapan environment dan neural network

Loop pelatihan DRL

Pengantar deep Q learning

Deep learning dan DQN

Arsitektur Q-Network

Menginstansiasi Q-Network

Algoritma DQN dasar

Pemilihan aksi DQN dasar

Fungsi loss DQN sederhana

Melatih Barebone DQN

Pengantar Deep Reinforcement Learning

Dalami Deep Q-learning dengan mengimplementasikan algoritma DQN asli, menampilkan Experience Replay, epsilon-greediness, dan fixed Q-targets. Melampaui DQN, Anda kemudian akan mengeksplorasi dua ekstensi menarik yang meningkatkan kinerja dan stabilitas Deep Q-learning: Double DQN dan Prioritized Experience Replay.

DQN dengan experience replay

Double-Ended Queue

Buffer experience replay

Algoritma DQN yang lengkap

Epsilon-greediness

Fixed Q-targets

Mengimplementasikan algoritme DQN lengkap

Double DQN

Opsi

Jaringan online

Jaringan target

Jaringan online dan jaringan target dalam DDQN

Melatih double DQN

Prioritized experience replay

Buffer prioritized experience replay

Sampling dari buffer PER

DQN dengan prioritized experience replay

Deep Q-learning

Pelajari konsep dasar metode policy gradient yang terdapat dalam DRL. Anda akan memulai dengan teorema policy gradient, yang menjadi dasar metode ini. Selanjutnya, Anda akan mengimplementasikan algoritma REINFORCE, sebuah pendekatan yang kuat untuk mempelajari kebijakan. Bab ini kemudian akan memandu Anda melalui metode Actor-Critic, berfokus pada algoritma Advantage Actor-Critic (A2C), yang menggabungkan kekuatan metode policy gradient dan berbasis nilai untuk meningkatkan efisiensi dan stabilitas pembelajaran.

Pengantar policy gradient

Arsitektur policy network

Bekerja dengan distribusi diskret

Policy gradient dan REINFORCE

Pemilihan aksi dalam REINFORCE

Melatih algoritma REINFORCE

Advantage Actor-Critic

Jaringan critic

Perhitungan rugi Actor-Critic

Melatih algoritma A2C

Pengantar Metode Policy Gradient

Jelajahi Proximal Policy Optimization (PPO) untuk kinerja DRL yang tangguh. Selanjutnya, Anda akan mempelajari penggunaan entropy bonus dalam PPO, yang mendorong eksplorasi dengan mencegah konvergensi prematur ke kebijakan deterministik. Anda juga akan mempelajari pembaruan batch dalam metode policy gradient. Terakhir, Anda akan mempelajari pengoptimalan hiperparameter dengan Optuna, alat yang ampuh untuk mengoptimalkan kinerja pada model DRL Anda.

Optimisasi kebijakan proksimal

Rasio probabilitas yang di-klip

Fungsi objektif surrogate terpangkas (clipped)

Bonus entropi dan PPO

Ruang bermain entropi

Melatih algoritma PPO

Pembaruan batch dalam policy gradient

Minibatch dan DRL

A2C dengan pembaruan batch

Optimisasi hyperparameter dengan Optuna

Hyperparameter atau bukan?

Praktik langsung dengan Optuna

Selamat!

Proximal Policy Optimization dan Tips DRL

Mulai perjalanan untuk memberdayakan mesin melalui Deep Reinforcement Learning (DRL). Kursus ini menawarkan pengalaman praktis dengan algoritma yang kuat menggunakan PyTorch dan Gymnasium.
Mulailah dengan fondasi DRL dan Reinforcement Learning tradisional, lalu implementasikan Deep Q-Networks (DQN) dengan penyempurnaan lanjutan seperti Prioritized Experience Replay.
Kembangkan keterampilan Anda dengan metode berbasis kebijakan dan jelajahi algoritma standar industri seperti Proximal Policy Optimization (PPO) sebelum mengoptimalkan model menggunakan Optuna.

Temukan teknik-teknik terdepan yang memungkinkan mesin untuk belajar dan berinteraksi dengan lingkungannya. Anda akan menyelami dunia Deep Reinforcement Learning (DRL) dan mendapatkan pengalaman praktis dengan algoritma-algoritma paling canggih yang mendorong perkembangan bidang ini. Anda akan menggunakan PyTorch dan lingkungan Gymnasium untuk membangun agen Anda sendiri.

<h2>Menguasai Dasar-Dasar Pembelajaran Penguatan Mendalam</h2>

Perjalanan kami dimulai dengan dasar-dasar DRL dan hubungannya dengan Reinforcement Learning tradisional. Dari sana, kita segera beralih ke implementasi Deep Q-Networks (DQN) di PyTorch, termasuk penyempurnaan lanjutan seperti Double DQN dan Prioritized Experience Replay untuk meningkatkan kinerja model Anda.

Tingkatkan keterampilan Anda ke level berikutnya saat Anda menjelajahi metode berbasis kebijakan. Anda akan mempelajari dan menerapkan teknik-teknik policy-gradient yang esensial, seperti REINFORCE dan metode Actor-Critic.

<h2>Gunakan Algoritma Terkini</h2>

Anda akan menemui algoritma DRL yang kuat yang umum digunakan di industri saat ini, termasuk Proximal Policy Optimization (PPO). Anda akan memperoleh pengalaman praktis dalam menerapkan teknik-teknik yang mendorong terobosan di bidang robotika, kecerdasan buatan (AI) dalam permainan, dan bidang-bidang lainnya. Akhirnya, Anda akan belajar mengoptimalkan model Anda menggunakan Optuna untuk penyesuaian hiperparameter.

Pada akhir kursus ini, Anda akan menguasai keterampilan untuk menerapkan teknik-teknik mutakhir ini pada masalah dunia nyata dan memanfaatkan potensi penuh DRL!

Intermediate Deep Learning with PyTorch

Reinforcement Learning with Gymnasium in Python

Pelajari dan gunakan algoritma Pembelajaran Penguatan Mendalam, termasuk teknik penyempurnaan.

Deep Reinforcement Learning dengan Python

Pelajari dan terapkan algoritma Deep Reinforcement Learning yang canggih, termasuk teknik penyempurnaan dan optimasi.

Double DQN

Create Your Free Account