Rastgele Orman ile gecikmiş uçuşlar
Bu egzersizde çapraz doğrulama ile ensemble yöntemlerini bir araya getireceksin. Geciken uçuşları tahmin etmek için bir Random Forest sınıflandırıcı eğitecek ve model parametreleri için en iyi değerleri seçmek amacıyla çapraz doğrulama kullanacaksın.
Aşağıdaki parametreler için iyi değerler bulacaksın:
featureSubsetStrategy— her düğümde bölme için dikkate alınacak özellik sayısı vemaxDepth— herhangi bir dal boyunca izin verilen en fazla bölme sayısı.
Ne yazık ki bu modeli kurmak çok uzun sürüyor, bu yüzden pipeline üzerinde .fit() metodunu çalıştırmayacağız.
RandomForestClassifier sınıfı oturuma zaten aktarılmış durumda.
Bu egzersiz
PySpark ile Machine Learning
kursunun bir parçasıdırEgzersiz talimatları
- Bir random forest sınıflandırıcı nesnesi oluştur.
- Bir parametre ızgarası oluşturucu nesnesi oluştur.
featureSubsetStrategyvemaxDepthparametreleri için ızgara noktaları ekle. - İkili sınıflandırma değerlendiricisi oluştur.
- Tahminleyiciyi, parametre ızgarasını ve değerlendiriciyi belirterek bir çapraz doğrulayıcı nesnesi oluştur. 5 katlı çapraz doğrulama seç.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create a random forest classifier
forest = ____()
# Create a parameter grid
params = ____() \
.____(____, ['all', 'onethird', 'sqrt', 'log2']) \
.____(____, [2, 5, 10]) \
.____()
# Create a binary classification evaluator
evaluator = ____()
# Create a cross-validator
cv = ____(____, ____, ____, ____)