Codificação One-Hot
O problema da label encoding é que ela assume, implicitamente, uma ordem entre as categorias. Então, vamos mudar o método de codificação das features "RoofStyle" e "CentralAir" para one-hot encoding. Novamente, os DataFrames train e test da competição House Prices no Kaggle já estão disponíveis no seu ambiente.
Lembre-se: se você estiver lidando com features binárias (features categóricas com apenas duas categorias), é recomendado aplicar apenas label encoder.
Seu objetivo é identificar qual das features mencionadas não é binária e aplicar one-hot encoding somente nela.
Este exercício faz parte do curso
Vencendo uma competição do Kaggle em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Concatenate train and test together
houses = pd.concat([train, test])
# Look at feature distributions
print(houses['RoofStyle'].____, '\n')
print(houses['CentralAir'].____)