ComeçarComece de graça

Codificação One-Hot

O problema da label encoding é que ela assume, implicitamente, uma ordem entre as categorias. Então, vamos mudar o método de codificação das features "RoofStyle" e "CentralAir" para one-hot encoding. Novamente, os DataFrames train e test da competição House Prices no Kaggle já estão disponíveis no seu ambiente.

Lembre-se: se você estiver lidando com features binárias (features categóricas com apenas duas categorias), é recomendado aplicar apenas label encoder.

Seu objetivo é identificar qual das features mencionadas não é binária e aplicar one-hot encoding somente nela.

Este exercício faz parte do curso

Vencendo uma competição do Kaggle em Python

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Concatenate train and test together
houses = pd.concat([train, test])

# Look at feature distributions
print(houses['RoofStyle'].____, '\n')
print(houses['CentralAir'].____)
Editar e executar o código