CommencerCommencer gratuitement

Prétraitement dans un pipeline

Maintenant que vous avez vu les étapes à réaliser individuellement pour traiter correctement les données du logement d’Ames, utilisons l’approche bien plus propre et concise avec DictVectorizer, et plaçons-la aux côtés d’un XGBoostRegressor au sein d’un pipeline scikit-learn.

Cet exercice fait partie du cours

Extreme Gradient Boosting avec XGBoost

Afficher le cours

Instructions

  • Importez DictVectorizer depuis sklearn.feature_extraction et Pipeline depuis sklearn.pipeline.
  • Remplissez les valeurs manquantes de la colonne LotFrontage de X avec 0.
  • Complétez les étapes du pipeline avec DictVectorizer(sparse=False) pour "ohe_onestep" et xgb.XGBRegressor() pour "xgb_model".
  • Créez le pipeline à l’aide de Pipeline() et de steps.
  • Ajustez le Pipeline. N’oubliez pas de convertir X dans un format compréhensible par DictVectorizer en appelant la méthode to_dict("records") sur X.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import necessary modules
____
____

# Fill LotFrontage missing values with 0
X.LotFrontage = ____

# Setup the pipeline steps: steps
steps = [("ohe_onestep", ____),
         ("xgb_model", ____)]

# Create the pipeline: xgb_pipeline
xgb_pipeline = ____

# Fit the pipeline
____
Modifier et exécuter le code