Convertir des variables catégorielles
Comme sklearn exige des caractéristiques numériques en entrée des modèles, il est important d’encoder les variables catégorielles en variables numériques. La technique la plus courante, appelée « one-hot encoding », est simple mais consomme beaucoup de mémoire. Pour cette raison, vous allez utiliser la technique du hashing, qui transforme les entrées catégorielles en valeurs numériques, pour chaque colonne catégorielle.
Le module pandas est disponible sous le nom pd dans votre environnement de travail et le DataFrame d’exemple est chargé dans df.
Cet exercice fait partie du cours
Prédire le CTR avec le Machine Learning en Python
Instructions
- Sélectionnez les colonnes catégorielles en filtrant sur le type de données.
- Appliquez une fonction de hachage à chacune des colonnes catégorielles.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Get categorical columns
categorical_cols = df.____(
include = [____]).columns.tolist()
print("Categorical columns: ")
print(categorical_cols)
# Iterate over categorical columns and apply hash function
for col in ____:
df[col] = df[col].____(lambda x: ____(x))
# Print examples of new output
print(df.head(5))