Codificação por rótulos (Label encoding)
Vamos trabalhar na codificação de variáveis categóricas. Você vai novamente usar uma amostra da competição House Prices no Kaggle.
Seu objetivo é codificar as variáveis categóricas "RoofStyle" e "CentralAir" usando label encoding. Os DataFrames train e test já estão disponíveis no seu ambiente de trabalho.
Este exercício faz parte do curso
Vencendo uma competição do Kaggle em Python
Instruções do exercício
- Concatene os DataFrames
trainetestem um único DataFramehouses. - Crie um objeto
LabelEncodersem argumentos e atribua-o ale. - Crie novas variáveis codificadas por rótulos para "RoofStyle" e "CentralAir" usando o mesmo objeto
le.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Concatenate train and test together
houses = ____.____([train, test])
# Label encoder
from sklearn.preprocessing import LabelEncoder
le = ____()
# Create new features
houses['RoofStyle_enc'] = le.fit_transform(houses[____])
houses['CentralAir_enc'] = ____.____(____[____])
# Look at new features
print(houses[['RoofStyle', 'RoofStyle_enc', 'CentralAir', 'CentralAir_enc']].head())