Preprocesado dentro de un pipeline
Ahora que has visto qué pasos hay que realizar por separado para procesar correctamente los datos de viviendas de Ames, vamos a usar el enfoque mucho más limpio y conciso de DictVectorizer y colocarlo junto a un XGBoostRegressor dentro de un pipeline de scikit-learn.
Este ejercicio forma parte del curso
Extreme Gradient Boosting con XGBoost
Instrucciones del ejercicio
- Importa
DictVectorizerdesklearn.feature_extractionyPipelinedesklearn.pipeline. - Rellena los valores faltantes en la columna
LotFrontagedeXcon0. - Completa los pasos del pipeline con
DictVectorizer(sparse=False)para"ohe_onestep"yxgb.XGBRegressor()para"xgb_model". - Crea el pipeline usando
Pipeline()ysteps. - Ajusta el
Pipeline. No olvides convertirXa un formato queDictVectorizerentienda llamando al métodoto_dict("records")sobreX.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import necessary modules
____
____
# Fill LotFrontage missing values with 0
X.LotFrontage = ____
# Setup the pipeline steps: steps
steps = [("ohe_onestep", ____),
("xgb_model", ____)]
# Create the pipeline: xgb_pipeline
xgb_pipeline = ____
# Fit the pipeline
____