Prétraitement dans un pipeline
Maintenant que vous avez vu les étapes à réaliser individuellement pour traiter correctement les données du logement d’Ames, utilisons l’approche bien plus propre et concise avec DictVectorizer, et plaçons-la aux côtés d’un XGBoostRegressor au sein d’un pipeline scikit-learn.
Cet exercice fait partie du cours
Extreme Gradient Boosting avec XGBoost
Instructions
- Importez
DictVectorizerdepuissklearn.feature_extractionetPipelinedepuissklearn.pipeline. - Remplissez les valeurs manquantes de la colonne
LotFrontagedeXavec0. - Complétez les étapes du pipeline avec
DictVectorizer(sparse=False)pour"ohe_onestep"etxgb.XGBRegressor()pour"xgb_model". - Créez le pipeline à l’aide de
Pipeline()et desteps. - Ajustez le
Pipeline. N’oubliez pas de convertirXdans un format compréhensible parDictVectorizeren appelant la méthodeto_dict("records")surX.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import necessary modules
____
____
# Fill LotFrontage missing values with 0
X.LotFrontage = ____
# Setup the pipeline steps: steps
steps = [("ohe_onestep", ____),
("xgb_model", ____)]
# Create the pipeline: xgb_pipeline
xgb_pipeline = ____
# Fit the pipeline
____