Vorverarbeitung in einer Pipeline

Nachdem du gesehen hast, welche Schritte einzeln nötig sind, um die Ames-Housing-Daten korrekt zu verarbeiten, verwenden wir jetzt den deutlich saubereren und kompakteren Ansatz mit DictVectorizer und kombinieren ihn mit einem XGBoostRegressor in einer scikit-learn-Pipeline.

Diese Übung ist Teil des Kurses

Extreme Gradient Boosting mit XGBoost

Kurs anzeigen

Anleitung zur Übung

Importiere DictVectorizer aus sklearn.feature_extraction und Pipeline aus sklearn.pipeline.
Fülle fehlende Werte in der Spalte LotFrontage von X mit 0 auf.
Vervollständige die Schritte der Pipeline mit DictVectorizer(sparse=False) für "ohe_onestep" und xgb.XGBRegressor() für "xgb_model".
Erstelle die Pipeline mit Pipeline() und steps.
Fitte die Pipeline. Denk daran, X in ein Format zu konvertieren, das DictVectorizer versteht, indem du die Methode to_dict("records") auf X aufrufst.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import necessary modules
____
____

# Fill LotFrontage missing values with 0
X.LotFrontage = ____

# Setup the pipeline steps: steps
steps = [("ohe_onestep", ____),
         ("xgb_model", ____)]

# Create the pipeline: xgb_pipeline
xgb_pipeline = ____

# Fit the pipeline
____

Code bearbeiten und ausführen