Encodage par labels
Passons à l’encodage des variables catégorielles. Vous allez de nouveau travailler sur un sous-échantillon de la compétition House Prices sur Kaggle.
Votre objectif est d’encoder les caractéristiques catégorielles "RoofStyle" et "CentralAir" à l’aide d’un encodage par labels. Les DataFrames train et test sont déjà disponibles dans votre espace de travail.
Cet exercice fait partie du cours
<cours>Gagner une compétition Kaggle en Python</cours>Instructions de l’exercice
- Concaténez les DataFrames
trainettesten un seul DataFramehouses. - Créez un objet
LabelEncodersans arguments et assignez-le àle. - Créez de nouvelles caractéristiques encodées pour "RoofStyle" et "CentralAir" en utilisant le même objet
le.
Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Concatenate train and test together
houses = ____.____([train, test])
# Label encoder
from sklearn.preprocessing import LabelEncoder
le = ____()
# Create new features
houses['RoofStyle_enc'] = le.fit_transform(houses[____])
houses['CentralAir_enc'] = ____.____(____[____])
# Look at new features
print(houses[['RoofStyle', 'RoofStyle_enc', 'CentralAir', 'CentralAir_enc']].head())