CommencerCommencez gratuitement

Gérer les catégories peu fréquentes

Certaines variables peuvent comporter de très nombreuses catégories avec une distribution très déséquilibrée de leurs occurrences. Prenez par exemple les langages préférés des Data Scientists : les choix courants sont Python, R et Julia, mais certaines personnes utilisent des options plus rares, comme FORTRAN, C, etc. Dans ces cas, vous ne voudrez pas forcément créer une variable pour chaque valeur, mais seulement pour les occurrences les plus fréquentes.

Cet exercice fait partie du cours

<cours>Feature engineering pour le Machine Learning en Python</cours>
Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create a series out of the Country column
countries = so_survey_df.____

# Get the counts of each category
country_counts = countries.____

# Print the count values for each category
print(country_counts)
Modifier et exécuter le code