One-Hot encoding
Il problema della label encoding è che presume implicitamente una relazione di ordinamento tra le categorie. Quindi, cambiamo metodo di codifica per le feature "RoofStyle" e "CentralAir" passando alla one-hot encoding. Anche qui, i DataFrame train e test della competizione House Prices su Kaggle sono già disponibili nel tuo workspace.
Ricorda che, se lavori con feature binarie (feature categoriche con solo due categorie), è consigliato applicare solo la label encoder.
Il tuo obiettivo è capire quale tra le feature menzionate non è binaria e applicare la one-hot encoding solo a quella.
Questo esercizio fa parte del corso
Vincere una competizione Kaggle con Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Concatenate train and test together
houses = pd.concat([train, test])
# Look at feature distributions
print(houses['RoofStyle'].____, '\n')
print(houses['CentralAir'].____)