Preprocessing all'interno di una pipeline
Ora che hai visto quali passaggi eseguire singolarmente per processare correttamente i dati delle case di Ames, usiamo l’approccio molto più pulito e conciso con DictVectorizer e affianchiamolo a un XGBoostRegressor all’interno di una pipeline di scikit-learn.
Questo esercizio fa parte del corso
Extreme Gradient Boosting con XGBoost
Istruzioni dell'esercizio
- Importa
DictVectorizerdasklearn.feature_extractionePipelinedasklearn.pipeline. - Riempi con
0i valori mancanti nella colonnaLotFrontagediX. - Completa i passaggi della pipeline con
DictVectorizer(sparse=False)per"ohe_onestep"exgb.XGBRegressor()per"xgb_model". - Crea la pipeline usando
Pipeline()esteps. - Esegui il fit della
Pipeline. Ricorda di convertireXin un formato cheDictVectorizercapisce, chiamando il metodoto_dict("records")suX.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import necessary modules
____
____
# Fill LotFrontage missing values with 0
X.LotFrontage = ____
# Setup the pipeline steps: steps
steps = [("ohe_onestep", ____),
("xgb_model", ____)]
# Create the pipeline: xgb_pipeline
xgb_pipeline = ____
# Fit the pipeline
____