IniziaInizia gratis

Preprocessing all'interno di una pipeline

Ora che hai visto quali passaggi eseguire singolarmente per processare correttamente i dati delle case di Ames, usiamo l’approccio molto più pulito e conciso con DictVectorizer e affianchiamolo a un XGBoostRegressor all’interno di una pipeline di scikit-learn.

Questo esercizio fa parte del corso

Extreme Gradient Boosting con XGBoost

Visualizza il corso

Istruzioni dell'esercizio

  • Importa DictVectorizer da sklearn.feature_extraction e Pipeline da sklearn.pipeline.
  • Riempi con 0 i valori mancanti nella colonna LotFrontage di X.
  • Completa i passaggi della pipeline con DictVectorizer(sparse=False) per "ohe_onestep" e xgb.XGBRegressor() per "xgb_model".
  • Crea la pipeline usando Pipeline() e steps.
  • Esegui il fit della Pipeline. Ricorda di convertire X in un formato che DictVectorizer capisce, chiamando il metodo to_dict("records") su X.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import necessary modules
____
____

# Fill LotFrontage missing values with 0
X.LotFrontage = ____

# Setup the pipeline steps: steps
steps = [("ohe_onestep", ____),
         ("xgb_model", ____)]

# Create the pipeline: xgb_pipeline
xgb_pipeline = ____

# Fit the pipeline
____
Modifica ed esegui il codice