Deep reinforcement learning’in, geleneksel Reinforcement Learning’e nasıl üstünlük sağladığını keşfet ve ilk Deep Q Learning algoritmanı inceleyip uygula.

Derin pekiştirmeli öğrenmeye giriş

Ortam ve sinir ağı kurulumu

DRL eğitim döngüsü

Deep Q öğrenmeye giriş

Deep learning ve DQN

Q-Ağı mimarisi

Q-Ağını Örneklendirme

Temel DQN algoritması

Temel DQN eylem seçimi

Temel DQN kayıp fonksiyonu

Temel DQN'i eğitme

Deep Reinforcement Learning’e Giriş

Experience Replay, epsilon-greediness ve sabit Q-hedefleri içeren orijinal DQN algoritmasını uygulayarak Deep Q-learning’e dal. DQN’in ötesinde, Deep Q-learning’in performans ve kararlılığını artıran iki etkileyici genişletmeyi keşfedeceksin: Double DQN ve Prioritized Experience Replay.

Deneyim tekrar çalma ile DQN

Çift uçlu kuyruk

Deneyim tekrar oynatma tamponu

Deneyim Tekrarı ile DQN

Tam DQN algoritması

Epsilon-açgözlülüğü

Sabit Q-hedefleri

Tam DQN algoritmasını uygulama

Double DQN

Seçenekler

Çevrimiçi ağ

Hedef ağ

DDQN'de çevrimiçi ağ ve hedef ağ

Double DQN'i eğitmek

Önceliklendirilmiş deneyim tekrar oynatma

Öncelikli deneyim tekrar oynatma tamponu

PER arabelleğinden örnekleme

Öncelikli deneyim tekrarı ile DQN

Deep Q-learning

DRL’de yer alan policy gradient yöntemlerinin temel kavramlarını öğren. Bu yöntemlerin temelini oluşturan policy gradient teoremi ile başlayacaksın. Ardından politikaları öğrenmede güçlü bir yaklaşım olan REINFORCE algoritmasını uygulayacaksın. Bölüm, policy gradient ve değer tabanlı yöntemlerin güçlü yönlerini birleştirerek öğrenme verimliliği ve kararlılığını artıran Advantage Actor-Critic (A2C) yöntemine odaklanan Actor-Critic yöntemleriyle devam edecek.

Politika gradyanına giriş

Policy ağının mimarisi

Ayrık dağılımlarla çalışmak

Policy gradient ve REINFORCE

REINFORCE'ta eylem seçimi

REINFORCE algoritmasını eğitme

Advantage Actor-Critic

Eleştirmen (Critic) ağı

Actor-Critic kayıp hesaplamaları

A2C algoritmasını eğitme

Policy Gradient Yöntemlerine Giriş

Sağlam DRL performansı için Proximal Policy Optimization (PPO)’ı keşfet. Sonraki adımda, belirleyici politikalara erken yakınsamayı önleyerek keşfi teşvik eden PPO’daki entropi bonusunu inceleyeceksin. Ayrıca policy gradient yöntemlerinde toplu (batch) güncellemeleri öğreneceksin. Son olarak, DRL modellerindeki performansı iyileştirmek için güçlü bir araç olan Optuna ile hiperparametre optimizasyonunu öğreneceksin.

Yakınsal politika optimizasyonu

Kırpılmış olasılık oranı

Kırpılmış yerine geçen amaç fonksiyonu

Entropi bonusu ve PPO

Entropi oyun alanı

PPO algoritmasını eğitme

Politika gradyanında yığın güncellemeleri

Minibatch ve DRL

Toplu güncellemelerle A2C

Optuna ile hiperparametre optimizasyonu

Hiperparametre mi değil mi?

Optuna ile uygulama

Tebrikler!

Proximal Policy Optimization ve DRL İpuçları

Deep Reinforcement Learning (DRL) ile makineleri güçlendirme yolculuğuna çık. Bu kurs, PyTorch ve Gymnasium kullanarak güçlü algoritmalarla uygulamalı deneyim sunar.
DRL temelleri ve geleneksel Reinforcement Learning ile başla, ardından Prioritized Experience Replay gibi gelişmiş iyileştirmelerle Deep Q-Networks (DQN) uygula.
Yeteneklerini politika tabanlı yöntemlerle ilerlet ve modellerini Optuna ile optimize etmeden önce Proximal Policy Optimization (PPO) gibi sektörde standartlaşmış algoritmaları keşfet.

Makinelerin öğrenmesini ve çevreleriyle etkileşime girmesini sağlayan en son teknolojileri keşfedin. Derin Pekiştirme Öğrenimi (DRL) dünyasına dalacak ve bu alanı ileriye taşıyan en güçlü algoritmalarla pratik deneyim kazanacaksınız. PyTorch ve Gymnasium ortamını kullanarak kendi ajanlarınızı oluşturacaksınız.

<h2>Derin Pekiştirme Öğreniminin Temellerini Öğrenin</h2>

Yolculuğumuz, DRL'nin temelleri ve bunların geleneksel Pekiştirme Öğrenimi ile olan ilişkisi ile başlıyor. Buradan, modellerinizi güçlendirmek için Double DQN ve Prioritized Experience Replay gibi gelişmiş iyileştirmeler de dahil olmak üzere Deep Q-Networks (DQN) uygulamasını PyTorch'ta hızla uygulamaya geçiyoruz.

Politika tabanlı yöntemleri keşfederken becerilerinizi bir üst seviyeye taşıyın. REINFORCE ve Actor-Critic yöntemleri gibi temel politika gradyan tekniklerini öğrenecek ve uygulayacaksınız.

<h2>En Son Teknoloji Algoritmalar Kullanın</h2>

Günümüzde sektörde yaygın olarak kullanılan, Proximal Policy Optimization (PPO) dahil olmak üzere güçlü DRL algoritmalarıyla karşılaşacaksınız. Robotik, oyun yapay zekası ve daha birçok alanda çığır açan tekniklerle pratik deneyim kazanacaksınız. Son olarak, hiperparametre ayarlaması için Optuna kullanarak modellerinizi optimize etmeyi öğreneceksiniz.

Bu kursun sonunda, bu son teknoloji teknikleri gerçek dünyadaki sorunlara uygulamak ve DRL'nin tüm potansiyelini kullanmak için gerekli becerileri edinmiş olacaksınız!

Intermediate Deep Learning with PyTorch

Reinforcement Learning with Gymnasium in Python

Güçlü Derin Pekiştirmeli Öğrenme algoritmalarını, iyileştirme ve optimizasyon teknikleriyle öğrenin.

Python ile Deep Reinforcement Learning

İyileştirme ve optimizasyon teknikleri dahil olmak üzere güçlü Derin Pekiştirme Öğrenimi algoritmalarını öğrenin ve kullanın.

Double DQN

Create Your Free Account