Voorbewerking binnen een pipeline
Nu je hebt gezien welke stappen je afzonderlijk moet nemen om de Ames-housinggegevens goed te verwerken, gaan we de veel schonere en beknoptere DictVectorizer-aanpak gebruiken en die samen met een XGBoostRegressor in een scikit-learn-pipeline zetten.
Deze oefening maakt deel uit van de cursus
Extreme Gradient Boosting met XGBoost
Oefeninstructies
- Importeer
DictVectorizeruitsklearn.feature_extractionenPipelineuitsklearn.pipeline. - Vul ontbrekende waarden in de kolom
LotFrontagevanXaan met0. - Maak de stappen van de pipeline af met
DictVectorizer(sparse=False)voor"ohe_onestep"enxgb.XGBRegressor()voor"xgb_model". - Maak de pipeline met
Pipeline()ensteps. - Fit de
Pipeline. Vergeet nietXom te zetten naar een formaat datDictVectorizerbegrijpt door de methodeto_dict("records")opXaan te roepen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import necessary modules
____
____
# Fill LotFrontage missing values with 0
X.LotFrontage = ____
# Setup the pipeline steps: steps
steps = [("ohe_onestep", ____),
("xgb_model", ____)]
# Create the pipeline: xgb_pipeline
xgb_pipeline = ____
# Fit the pipeline
____