1. Learn
  2. /
  3. Cursuri
  4. /
  5. Ingineria caracteristicilor pentru Machine Learning în Python

Connected

exercițiu

Gestionarea categoriilor rare

Unele caracteristici pot avea multe categorii diferite, dar cu o distribuție foarte inegală a aparițiilor lor. Ia ca exemplu limbajele de programare preferate în Data Science: alegeri comune sunt Python, R și Julia, însă există și persoane cu preferințe mai neobișnuite, cum ar fi FORTRAN, C etc. În astfel de cazuri, poate că nu vrei să creezi o caracteristică pentru fiecare valoare, ci doar pentru cele mai frecvente.

Instrucțiuni 1/3

undefined XP
    1
    2
    3
  • Extrage coloana Country din so_survey_df ca serie și atribuie-o variabilei countries.
  • Găsește numărul de apariții al fiecărei categorii din seria countries nou creată.