Preprocessing all'interno di una pipeline

Ora che hai visto quali passaggi eseguire singolarmente per processare correttamente i dati delle case di Ames, usiamo l’approccio molto più pulito e conciso con DictVectorizer e affianchiamolo a un XGBoostRegressor all’interno di una pipeline di scikit-learn.

Questo esercizio fa parte del corso

Extreme Gradient Boosting con XGBoost

Visualizza corso

Istruzioni dell'esercizio

Importa DictVectorizer da sklearn.feature_extraction e Pipeline da sklearn.pipeline.
Riempi con 0 i valori mancanti nella colonna LotFrontage di X.
Completa i passaggi della pipeline con DictVectorizer(sparse=False) per "ohe_onestep" e xgb.XGBRegressor() per "xgb_model".
Crea la pipeline usando Pipeline() e steps.
Esegui il fit della Pipeline. Ricorda di convertire X in un formato che DictVectorizer capisce, chiamando il metodo to_dict("records") su X.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import necessary modules
____
____

# Fill LotFrontage missing values with 0
X.LotFrontage = ____

# Setup the pipeline steps: steps
steps = [("ohe_onestep", ____),
         ("xgb_model", ____)]

# Create the pipeline: xgb_pipeline
xgb_pipeline = ____

# Fit the pipeline
____

Modifica ed esegui il codice