IniziaInizia gratis

Voli in ritardo con una Random Forest

In questo esercizio metterai insieme la cross-validation e i metodi ensemble. Allenerai un classificatore Random Forest per prevedere i voli in ritardo, usando la cross-validation per scegliere i valori migliori dei parametri del modello.

Troverai buoni valori per i seguenti parametri:

  • featureSubsetStrategy — il numero di feature da considerare per lo split a ogni nodo e
  • maxDepth — il numero massimo di split lungo qualsiasi ramo.

Purtroppo costruire questo modello richiede troppo tempo, quindi non eseguiremo il metodo .fit() sulla pipeline.

La classe RandomForestClassifier è già stata importata nella sessione.

Questo esercizio fa parte del corso

Machine Learning con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Crea un oggetto classificatore Random Forest.
  • Crea un oggetto per la costruzione della griglia dei parametri. Aggiungi i punti di griglia per i parametri featureSubsetStrategy e maxDepth.
  • Crea un valutatore per classificazione binaria.
  • Crea un oggetto di cross-validation, specificando l’estimatore, la griglia dei parametri e il valutatore. Scegli una cross-validation a 5 fold.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create a random forest classifier
forest = ____()

# Create a parameter grid
params = ____() \
            .____(____, ['all', 'onethird', 'sqrt', 'log2']) \
            .____(____, [2, 5, 10]) \
            .____()

# Create a binary classification evaluator
evaluator = ____()

# Create a cross-validator
cv = ____(____, ____, ____, ____)
Modifica ed esegui il codice