Vertraagde vluchten met een Random Forest
In deze oefening combineer je cross-validatie en ensemble-methoden. Je traint een Random Forest-classifier om vertraagde vluchten te voorspellen, waarbij je cross-validatie gebruikt om de beste waarden voor modelparameters te kiezen.
Je zoekt goede waarden voor de volgende parameters:
featureSubsetStrategy— het aantal features dat bij elke knoop wordt overwogen voor een split, enmaxDepth— het maximale aantal splits langs een tak.
Helaas kost het bouwen van dit model te veel tijd, dus we draaien de methode .fit() niet op de pipeline.
De klasse RandomForestClassifier is al in de sessie geïmporteerd.
Deze oefening maakt deel uit van de cursus
Machine Learning met PySpark
Oefeninstructies
- Maak een Random Forest-classifierobject.
- Maak een parametergrid-builderobject. Voeg rasterpunten toe voor de parameters
featureSubsetStrategyenmaxDepth. - Maak een evaluator voor binaire classificatie.
- Maak een cross-validatorobject en specificeer de estimator, het parametergrid en de evaluator. Kies 5-voudige cross-validatie.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a random forest classifier
forest = ____()
# Create a parameter grid
params = ____() \
.____(____, ['all', 'onethird', 'sqrt', 'log2']) \
.____(____, [2, 5, 10]) \
.____()
# Create a binary classification evaluator
evaluator = ____()
# Create a cross-validator
cv = ____(____, ____, ____, ____)