1. Learn
  2. /
  3. Cursuri
  4. /
  5. Ingineria caracteristicilor pentru Machine Learning în Python

Connected

exercițiu

Eliminarea valorilor aberante statistice

Deși eliminarea primelor N% din date este utilă pentru a scăpa de punctele cu adevărat eronate, are dezavantajul că îndepărtează întotdeauna aceeași proporție de puncte, chiar dacă datele sunt corecte. O alternativă frecvent utilizată este eliminarea datelor situate la mai mult de trei abateri standard față de medie. Poți implementa această abordare calculând mai întâi media și abaterea standard ale coloanei relevante pentru a determina limitele superioară și inferioară, apoi aplicând aceste limite ca mască pe DataFrame. Această metodă garantează că sunt eliminate doar datele cu adevărat diferite de restul și va elimina mai puține puncte atunci când datele sunt grupate strâns.

Instrucțiuni

100 XP
  • Calculează abaterea standard și media coloanei ConvertedSalary din so_numeric_df.
  • Calculează limitele superioară și inferioară ca trei abateri standard față de medie, în ambele direcții.
  • Filtrează DataFrame-ul so_numeric_df pentru a păstra doar rândurile în care ConvertedSalary se încadrează între limitele lower și upper.