Mit seltenen Kategorien umgehen
Manche Features können viele verschiedene Kategorien haben, deren Auftreten jedoch sehr ungleich verteilt ist. Nimm zum Beispiel die Lieblingsprogrammiersprachen in Data Science: Häufige Optionen sind Python, R und Julia, aber es gibt auch individuelle, maßgeschneiderte Wahlmöglichkeiten wie FORTRAN, C usw. In solchen Fällen möchtest du vielleicht nicht für jeden Wert ein Feature erstellen, sondern nur für die häufiger vorkommenden.
Diese Übung ist Teil des Kurses
Feature Engineering für Machine Learning in Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create a series out of the Country column
countries = so_survey_df.____
# Get the counts of each category
country_counts = countries.____
# Print the count values for each category
print(country_counts)