Encodage one-hot

Le problème avec l’encodage par étiquettes (label encoding) est qu’il suppose implicitement un ordre entre les catégories. Changeons donc la méthode d’encodage pour les variables "RoofStyle" et "CentralAir" en un encodage one-hot. Comme précédemment, les DataFrames train et test du concours House Prices sur Kaggle sont déjà disponibles dans votre environnement.

Rappelez-vous que, pour les variables binaires (catégorielles avec seulement deux catégories), il est recommandé d’appliquer uniquement un label encoder.

Votre objectif est d’identifier laquelle des variables mentionnées n’est pas binaire, puis d’appliquer l’encodage one-hot uniquement à celle-ci.

Cet exercice fait partie du cours

Gagner une compétition Kaggle en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Concatenate train and test together
houses = pd.concat([train, test])

# Look at feature distributions
print(houses['RoofStyle'].____, '\n')
print(houses['CentralAir'].____)

Modifier et exécuter le code