Aan de slagGa gratis aan de slag

Voorbewerking binnen een pipeline

Nu je hebt gezien welke stappen je afzonderlijk moet nemen om de Ames-housinggegevens goed te verwerken, gaan we de veel schonere en beknoptere DictVectorizer-aanpak gebruiken en die samen met een XGBoostRegressor in een scikit-learn-pipeline zetten.

Deze oefening maakt deel uit van de cursus

Extreme Gradient Boosting met XGBoost

Cursus bekijken

Oefeninstructies

  • Importeer DictVectorizer uit sklearn.feature_extraction en Pipeline uit sklearn.pipeline.
  • Vul ontbrekende waarden in de kolom LotFrontage van X aan met 0.
  • Maak de stappen van de pipeline af met DictVectorizer(sparse=False) voor "ohe_onestep" en xgb.XGBRegressor() voor "xgb_model".
  • Maak de pipeline met Pipeline() en steps.
  • Fit de Pipeline. Vergeet niet X om te zetten naar een formaat dat DictVectorizer begrijpt door de methode to_dict("records") op X aan te roepen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import necessary modules
____
____

# Fill LotFrontage missing values with 0
X.LotFrontage = ____

# Setup the pipeline steps: steps
steps = [("ohe_onestep", ____),
         ("xgb_model", ____)]

# Create the pipeline: xgb_pipeline
xgb_pipeline = ____

# Fit the pipeline
____
Code bewerken en uitvoeren