Encodage one-hot et variables indicatrices
Pour utiliser des variables catégorielles dans un modèle de Machine Learning, vous devez d’abord les représenter de façon quantitative. Les deux approches les plus courantes sont l’encodage one-hot et l’utilisation de variables indicatrices (dummy variables). Dans cet exercice, vous allez créer ces deux types d’encodage et comparer les ensembles de colonnes obtenus. Nous continuons avec le même DataFrame que dans la leçon précédente, chargé sous le nom so_survey_df, en nous concentrant sur sa colonne Country.
Cet exercice fait partie du cours
Feature engineering pour le Machine Learning en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Convert the Country column to a one hot encoded Data Frame
one_hot_encoded = ____(____, ____=['Country'], prefix='OH')
# Print the columns names
print(one_hot_encoded.columns)