CommencerCommencer gratuitement

Convertir des variables catégorielles

Comme sklearn exige des caractéristiques numériques en entrée des modèles, il est important d’encoder les variables catégorielles en variables numériques. La technique la plus courante, appelée « one-hot encoding », est simple mais consomme beaucoup de mémoire. Pour cette raison, vous allez utiliser la technique du hashing, qui transforme les entrées catégorielles en valeurs numériques, pour chaque colonne catégorielle.

Le module pandas est disponible sous le nom pd dans votre environnement de travail et le DataFrame d’exemple est chargé dans df.

Cet exercice fait partie du cours

Prédire le CTR avec le Machine Learning en Python

Afficher le cours

Instructions

  • Sélectionnez les colonnes catégorielles en filtrant sur le type de données.
  • Appliquez une fonction de hachage à chacune des colonnes catégorielles.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Get categorical columns
categorical_cols = df.____(
  include = [____]).columns.tolist()
print("Categorical columns: ")
print(categorical_cols)

# Iterate over categorical columns and apply hash function
for col in ____:
	df[col] = df[col].____(lambda x: ____(x))

# Print examples of new output
print(df.head(5))
Modifier et exécuter le code