Pré-processamento dentro de um pipeline
Agora que você viu quais etapas precisam ser feitas individualmente para processar corretamente os dados de moradia de Ames, vamos usar a abordagem muito mais limpa e sucinta com DictVectorizer e colocá-la junto com um XGBoostRegressor dentro de um pipeline do scikit-learn.
Este exercício faz parte do curso
Extreme Gradient Boosting com XGBoost
Instruções do exercício
- Importe
DictVectorizerdesklearn.feature_extractionePipelinedesklearn.pipeline. - Preencha quaisquer valores ausentes na coluna
LotFrontagedeXcom0. - Complete as etapas do pipeline com
DictVectorizer(sparse=False)para"ohe_onestep"exgb.XGBRegressor()para"xgb_model". - Crie o pipeline usando
Pipeline()esteps. - Ajuste o
Pipeline. Não se esqueça de converterXpara um formato que oDictVectorizerentende chamando o métodoto_dict("records")emX.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import necessary modules
____
____
# Fill LotFrontage missing values with 0
X.LotFrontage = ____
# Setup the pipeline steps: steps
steps = [("ohe_onestep", ____),
("xgb_model", ____)]
# Create the pipeline: xgb_pipeline
xgb_pipeline = ____
# Fit the pipeline
____