CommencerCommencer gratuitement

Gérer les catégories peu fréquentes

Certaines variables peuvent comporter de très nombreuses catégories avec une distribution très déséquilibrée de leurs occurrences. Prenez par exemple les langages préférés des Data Scientists : les choix courants sont Python, R et Julia, mais certaines personnes utilisent des options plus rares, comme FORTRAN, C, etc. Dans ces cas, vous ne voudrez pas forcément créer une variable pour chaque valeur, mais seulement pour les occurrences les plus fréquentes.

Cet exercice fait partie du cours

Feature engineering pour le Machine Learning en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a series out of the Country column
countries = so_survey_df.____

# Get the counts of each category
country_counts = countries.____

# Print the count values for each category
print(country_counts)
Modifier et exécuter le code