Gérer les catégories peu fréquentes
Certaines variables peuvent comporter de très nombreuses catégories avec une distribution très déséquilibrée de leurs occurrences. Prenez par exemple les langages préférés des Data Scientists : les choix courants sont Python, R et Julia, mais certaines personnes utilisent des options plus rares, comme FORTRAN, C, etc. Dans ces cas, vous ne voudrez pas forcément créer une variable pour chaque valeur, mais seulement pour les occurrences les plus fréquentes.
Cet exercice fait partie du cours
<cours>Feature engineering pour le Machine Learning en Python</cours>Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Create a series out of the Country column
countries = so_survey_df.____
# Get the counts of each category
country_counts = countries.____
# Print the count values for each category
print(country_counts)