Gestire le categorie poco comuni
Alcune feature possono avere molte categorie diverse ma una distribuzione molto sbilanciata delle loro occorrenze. Prendiamo per esempio i linguaggi preferiti per programmare in Data Science: scelte comuni sono Python, R e Julia, ma ci possono essere persone con preferenze su misura, come FORTRAN, C ecc. In questi casi, potresti non voler creare una feature per ogni valore, ma solo per le occorrenze più comuni.
Questo esercizio fa parte del corso
Feature Engineering per il Machine Learning in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a series out of the Country column
countries = so_survey_df.____
# Get the counts of each category
country_counts = countries.____
# Print the count values for each category
print(country_counts)