BaşlayınÜcretsiz başlayın

Rastgele Orman ile gecikmiş uçuşlar

Bu egzersizde çapraz doğrulama ile ensemble yöntemlerini bir araya getireceksin. Geciken uçuşları tahmin etmek için bir Random Forest sınıflandırıcı eğitecek ve model parametreleri için en iyi değerleri seçmek amacıyla çapraz doğrulama kullanacaksın.

Aşağıdaki parametreler için iyi değerler bulacaksın:

  • featureSubsetStrategy — her düğümde bölme için dikkate alınacak özellik sayısı ve
  • maxDepth — herhangi bir dal boyunca izin verilen en fazla bölme sayısı.

Ne yazık ki bu modeli kurmak çok uzun sürüyor, bu yüzden pipeline üzerinde .fit() metodunu çalıştırmayacağız.

RandomForestClassifier sınıfı oturuma zaten aktarılmış durumda.

Bu egzersiz, kursun bir parçasıdır

PySpark ile Machine Learning

Kursa Göz Atın

Egzersiz talimatları

  • Bir random forest sınıflandırıcı nesnesi oluştur.
  • Bir parametre ızgarası oluşturucu nesnesi oluştur. featureSubsetStrategy ve maxDepth parametreleri için ızgara noktaları ekle.
  • İkili sınıflandırma değerlendiricisi oluştur.
  • Tahminleyiciyi, parametre ızgarasını ve değerlendiriciyi belirterek bir çapraz doğrulayıcı nesnesi oluştur. 5 katlı çapraz doğrulama seç.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create a random forest classifier
forest = ____()

# Create a parameter grid
params = ____() \
            .____(____, ['all', 'onethird', 'sqrt', 'log2']) \
            .____(____, [2, 5, 10]) \
            .____()

# Create a binary classification evaluator
evaluator = ____()

# Create a cross-validator
cv = ____(____, ____, ____, ____)
Kodu Düzenle ve Çalıştır