LoslegenKostenlos starten

Mit seltenen Kategorien umgehen

Manche Features können viele verschiedene Kategorien haben, deren Auftreten jedoch sehr ungleich verteilt ist. Nimm zum Beispiel die Lieblingsprogrammiersprachen in Data Science: Häufige Optionen sind Python, R und Julia, aber es gibt auch individuelle, maßgeschneiderte Wahlmöglichkeiten wie FORTRAN, C usw. In solchen Fällen möchtest du vielleicht nicht für jeden Wert ein Feature erstellen, sondern nur für die häufiger vorkommenden.

Diese Übung ist Teil des Kurses

<Kurs>Feature Engineering für Machine Learning in Python</Kurs>
Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create a series out of the Country column
countries = so_survey_df.____

# Get the counts of each category
country_counts = countries.____

# Print the count values for each category
print(country_counts)
Code bearbeiten und ausführen