Vorverarbeitung in einer Pipeline
Nachdem du gesehen hast, welche Schritte einzeln nötig sind, um die Ames-Housing-Daten korrekt zu verarbeiten, verwenden wir jetzt den deutlich saubereren und kompakteren Ansatz mit DictVectorizer und kombinieren ihn mit einem XGBoostRegressor in einer scikit-learn-Pipeline.
Diese Übung ist Teil des Kurses
Extreme Gradient Boosting mit XGBoost
Anleitung zur Übung
- Importiere
DictVectorizeraussklearn.feature_extractionundPipelineaussklearn.pipeline. - Fülle fehlende Werte in der Spalte
LotFrontagevonXmit0auf. - Vervollständige die Schritte der Pipeline mit
DictVectorizer(sparse=False)für"ohe_onestep"undxgb.XGBRegressor()für"xgb_model". - Erstelle die Pipeline mit
Pipeline()undsteps. - Fitte die
Pipeline. Denk daran,Xin ein Format zu konvertieren, dasDictVectorizerversteht, indem du die Methodeto_dict("records")aufXaufrufst.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import necessary modules
____
____
# Fill LotFrontage missing values with 0
X.LotFrontage = ____
# Setup the pipeline steps: steps
steps = [("ohe_onestep", ____),
("xgb_model", ____)]
# Create the pipeline: xgb_pipeline
xgb_pipeline = ____
# Fit the pipeline
____