IniziaInizia gratis

Gestire le categorie poco comuni

Alcune feature possono avere molte categorie diverse ma una distribuzione molto sbilanciata delle loro occorrenze. Prendiamo per esempio i linguaggi preferiti per programmare in Data Science: scelte comuni sono Python, R e Julia, ma ci possono essere persone con preferenze su misura, come FORTRAN, C ecc. In questi casi, potresti non voler creare una feature per ogni valore, ma solo per le occorrenze più comuni.

Questo esercizio fa parte del corso

Feature Engineering per il Machine Learning in Python

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create a series out of the Country column
countries = so_survey_df.____

# Get the counts of each category
country_counts = countries.____

# Print the count values for each category
print(country_counts)
Modifica ed esegui il codice