Mit seltenen Kategorien umgehen
Manche Features können viele verschiedene Kategorien haben, deren Auftreten jedoch sehr ungleich verteilt ist. Nimm zum Beispiel die Lieblingsprogrammiersprachen in Data Science: Häufige Optionen sind Python, R und Julia, aber es gibt auch individuelle, maßgeschneiderte Wahlmöglichkeiten wie FORTRAN, C usw. In solchen Fällen möchtest du vielleicht nicht für jeden Wert ein Feature erstellen, sondern nur für die häufiger vorkommenden.
Diese Übung ist Teil des Kurses
<Kurs>Feature Engineering für Machine Learning in Python</Kurs>Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Create a series out of the Country column
countries = so_survey_df.____
# Get the counts of each category
country_counts = countries.____
# Print the count values for each category
print(country_counts)