BaşlayınÜcretsiz Başlayın

Rastgele Orman ile gecikmiş uçuşlar

Bu egzersizde çapraz doğrulama ile ensemble yöntemlerini bir araya getireceksin. Geciken uçuşları tahmin etmek için bir Random Forest sınıflandırıcı eğitecek ve model parametreleri için en iyi değerleri seçmek amacıyla çapraz doğrulama kullanacaksın.

Aşağıdaki parametreler için iyi değerler bulacaksın:

  • featureSubsetStrategy — her düğümde bölme için dikkate alınacak özellik sayısı ve
  • maxDepth — herhangi bir dal boyunca izin verilen en fazla bölme sayısı.

Ne yazık ki bu modeli kurmak çok uzun sürüyor, bu yüzden pipeline üzerinde .fit() metodunu çalıştırmayacağız.

RandomForestClassifier sınıfı oturuma zaten aktarılmış durumda.

Bu egzersiz

PySpark ile Machine Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Bir random forest sınıflandırıcı nesnesi oluştur.
  • Bir parametre ızgarası oluşturucu nesnesi oluştur. featureSubsetStrategy ve maxDepth parametreleri için ızgara noktaları ekle.
  • İkili sınıflandırma değerlendiricisi oluştur.
  • Tahminleyiciyi, parametre ızgarasını ve değerlendiriciyi belirterek bir çapraz doğrulayıcı nesnesi oluştur. 5 katlı çapraz doğrulama seç.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create a random forest classifier
forest = ____()

# Create a parameter grid
params = ____() \
            .____(____, ['all', 'onethird', 'sqrt', 'log2']) \
            .____(____, [2, 5, 10]) \
            .____()

# Create a binary classification evaluator
evaluator = ____()

# Create a cross-validator
cv = ____(____, ____, ____, ____)
Kodu Düzenle ve Çalıştır