1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech w uczeniu maszynowym w Pythonie

Connected

ćwiczenie

Obsługa rzadkich kategorii

Niektóre cechy mogą mieć wiele różnych kategorii, ale ich rozkład bywa bardzo nierównomierny. Weźmy na przykład ulubione języki programowania w świecie Data Science – popularne wybory to Python, R i Julia, ale zdarzają się też bardziej niszowe, jak FORTRAN czy C. W takich przypadkach tworzenie osobnej cechy dla każdej wartości może nie mieć sensu – lepiej skupić się tylko na tych najczęściej występujących.

Instrukcje 1/3

undefined XP
    1
    2
    3
  • Wyodrębnij kolumnę Country z so_survey_df jako serię i przypisz ją do zmiennej countries.
  • Policz wystąpienia każdej kategorii w nowo utworzonej serii countries.