Aan de slagGa gratis aan de slag

Omgaan met ongebruikelijke categorieën

Sommige features kunnen veel verschillende categorieën hebben, maar een zeer scheve verdeling van hun voorkomen. Neem bijvoorbeeld de favoriete programmeertalen in Data Science: veelvoorkomende keuzes zijn Python, R en Julia, maar er zijn ook mensen met eigenzinnige keuzes, zoals FORTRAN, C, enz. In zulke gevallen wil je misschien niet voor elke waarde een feature maken, maar alleen voor de meer voorkomende categorieën.

Deze oefening maakt deel uit van de cursus

Feature engineering voor Machine Learning in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a series out of the Country column
countries = so_survey_df.____

# Get the counts of each category
country_counts = countries.____

# Print the count values for each category
print(country_counts)
Code bewerken en uitvoeren