CommencerCommencez gratuitement

Encodage par labels

Passons à l’encodage des variables catégorielles. Vous allez de nouveau travailler sur un sous-échantillon de la compétition House Prices sur Kaggle.

Votre objectif est d’encoder les caractéristiques catégorielles "RoofStyle" et "CentralAir" à l’aide d’un encodage par labels. Les DataFrames train et test sont déjà disponibles dans votre espace de travail.

Cet exercice fait partie du cours

<cours>Gagner une compétition Kaggle en Python</cours>
Voir le cours

Instructions de l’exercice

  • Concaténez les DataFrames train et test en un seul DataFrame houses.
  • Créez un objet LabelEncoder sans arguments et assignez-le à le.
  • Créez de nouvelles caractéristiques encodées pour "RoofStyle" et "CentralAir" en utilisant le même objet le.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Concatenate train and test together
houses = ____.____([train, test])

# Label encoder
from sklearn.preprocessing import LabelEncoder
le = ____()

# Create new features
houses['RoofStyle_enc'] = le.fit_transform(houses[____])
houses['CentralAir_enc'] = ____.____(____[____])

# Look at new features
print(houses[['RoofStyle', 'RoofStyle_enc', 'CentralAir', 'CentralAir_enc']].head())
Modifier et exécuter le code