Preprocesado dentro de un pipeline

Ahora que has visto qué pasos hay que realizar por separado para procesar correctamente los datos de viviendas de Ames, vamos a usar el enfoque mucho más limpio y conciso de DictVectorizer y colocarlo junto a un XGBoostRegressor dentro de un pipeline de scikit-learn.

Este ejercicio forma parte del curso

Extreme Gradient Boosting con XGBoost

Ver curso

Instrucciones del ejercicio

Importa DictVectorizer de sklearn.feature_extraction y Pipeline de sklearn.pipeline.
Rellena los valores faltantes en la columna LotFrontage de X con 0.
Completa los pasos del pipeline con DictVectorizer(sparse=False) para "ohe_onestep" y xgb.XGBRegressor() para "xgb_model".
Crea el pipeline usando Pipeline() y steps.
Ajusta el Pipeline. No olvides convertir X a un formato que DictVectorizer entienda llamando al método to_dict("records") sobre X.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import necessary modules
____
____

# Fill LotFrontage missing values with 0
X.LotFrontage = ____

# Setup the pipeline steps: steps
steps = [("ohe_onestep", ____),
         ("xgb_model", ____)]

# Create the pipeline: xgb_pipeline
xgb_pipeline = ____

# Fit the pipeline
____

Editar y ejecutar código