Encodage one-hot
Le problème avec l’encodage par étiquettes (label encoding) est qu’il suppose implicitement un ordre entre les catégories. Changeons donc la méthode d’encodage pour les variables "RoofStyle" et "CentralAir" en un encodage one-hot. Comme précédemment, les DataFrames train et test du concours House Prices sur Kaggle sont déjà disponibles dans votre environnement.
Rappelez-vous que, pour les variables binaires (catégorielles avec seulement deux catégories), il est recommandé d’appliquer uniquement un label encoder.
Votre objectif est d’identifier laquelle des variables mentionnées n’est pas binaire, puis d’appliquer l’encodage one-hot uniquement à celle-ci.
Cet exercice fait partie du cours
Gagner une compétition Kaggle en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Concatenate train and test together
houses = pd.concat([train, test])
# Look at feature distributions
print(houses['RoofStyle'].____, '\n')
print(houses['CentralAir'].____)