Omgaan met ongebruikelijke categorieën
Sommige features kunnen veel verschillende categorieën hebben, maar een zeer scheve verdeling van hun voorkomen. Neem bijvoorbeeld de favoriete programmeertalen in Data Science: veelvoorkomende keuzes zijn Python, R en Julia, maar er zijn ook mensen met eigenzinnige keuzes, zoals FORTRAN, C, enz. In zulke gevallen wil je misschien niet voor elke waarde een feature maken, maar alleen voor de meer voorkomende categorieën.
Deze oefening maakt deel uit van de cursus
Feature engineering voor Machine Learning in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a series out of the Country column
countries = so_survey_df.____
# Get the counts of each category
country_counts = countries.____
# Print the count values for each category
print(country_counts)