Voli in ritardo con una Random Forest
In questo esercizio metterai insieme la cross-validation e i metodi ensemble. Allenerai un classificatore Random Forest per prevedere i voli in ritardo, usando la cross-validation per scegliere i valori migliori dei parametri del modello.
Troverai buoni valori per i seguenti parametri:
featureSubsetStrategy— il numero di feature da considerare per lo split a ogni nodo emaxDepth— il numero massimo di split lungo qualsiasi ramo.
Purtroppo costruire questo modello richiede troppo tempo, quindi non eseguiremo il metodo .fit() sulla pipeline.
La classe RandomForestClassifier è già stata importata nella sessione.
Questo esercizio fa parte del corso
Machine Learning con PySpark
Istruzioni dell'esercizio
- Crea un oggetto classificatore Random Forest.
- Crea un oggetto per la costruzione della griglia dei parametri. Aggiungi i punti di griglia per i parametri
featureSubsetStrategyemaxDepth. - Crea un valutatore per classificazione binaria.
- Crea un oggetto di cross-validation, specificando l’estimatore, la griglia dei parametri e il valutatore. Scegli una cross-validation a 5 fold.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a random forest classifier
forest = ____()
# Create a parameter grid
params = ____() \
.____(____, ['all', 'onethird', 'sqrt', 'log2']) \
.____(____, [2, 5, 10]) \
.____()
# Create a binary classification evaluator
evaluator = ____()
# Create a cross-validator
cv = ____(____, ____, ____, ____)