ComeçarComece de graça

Pré-processamento dentro de um pipeline

Agora que você viu quais etapas precisam ser feitas individualmente para processar corretamente os dados de moradia de Ames, vamos usar a abordagem muito mais limpa e sucinta com DictVectorizer e colocá-la junto com um XGBoostRegressor dentro de um pipeline do scikit-learn.

Este exercício faz parte do curso

Extreme Gradient Boosting com XGBoost

Ver curso

Instruções do exercício

  • Importe DictVectorizer de sklearn.feature_extraction e Pipeline de sklearn.pipeline.
  • Preencha quaisquer valores ausentes na coluna LotFrontage de X com 0.
  • Complete as etapas do pipeline com DictVectorizer(sparse=False) para "ohe_onestep" e xgb.XGBRegressor() para "xgb_model".
  • Crie o pipeline usando Pipeline() e steps.
  • Ajuste o Pipeline. Não se esqueça de converter X para um formato que o DictVectorizer entende chamando o método to_dict("records") em X.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import necessary modules
____
____

# Fill LotFrontage missing values with 0
X.LotFrontage = ____

# Setup the pipeline steps: steps
steps = [("ohe_onestep", ____),
         ("xgb_model", ____)]

# Create the pipeline: xgb_pipeline
xgb_pipeline = ____

# Fit the pipeline
____
Editar e executar o código