Encodage par labels
Passons à l’encodage des variables catégorielles. Vous allez de nouveau travailler sur un sous-échantillon de la compétition House Prices sur Kaggle.
Votre objectif est d’encoder les caractéristiques catégorielles "RoofStyle" et "CentralAir" à l’aide d’un encodage par labels. Les DataFrames train et test sont déjà disponibles dans votre espace de travail.
Cet exercice fait partie du cours
Gagner une compétition Kaggle en Python
Instructions
- Concaténez les DataFrames
trainettesten un seul DataFramehouses. - Créez un objet
LabelEncodersans arguments et assignez-le àle. - Créez de nouvelles caractéristiques encodées pour "RoofStyle" et "CentralAir" en utilisant le même objet
le.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Concatenate train and test together
houses = ____.____([train, test])
# Label encoder
from sklearn.preprocessing import LabelEncoder
le = ____()
# Create new features
houses['RoofStyle_enc'] = le.fit_transform(houses[____])
houses['CentralAir_enc'] = ____.____(____[____])
# Look at new features
print(houses[['RoofStyle', 'RoofStyle_enc', 'CentralAir', 'CentralAir_enc']].head())