1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech w uczeniu maszynowym w Pythonie

Connected

ćwiczenie

Usuwanie wartości odstających na podstawie percentyli

Jednym ze sposobów na ograniczenie negatywnego wpływu niewielkiej części danych jest usunięcie określonego procentu największych i/lub najmniejszych wartości w kolumnie. Można to osiągnąć, wyznaczając odpowiedni kwantyl i przycinając dane za pomocą maski. To podejście sprawdza się szczególnie wtedy, gdy chcesz uniknąć skrajnie wysokich wartości w zbiorze danych. Pamiętaj jednak, że nawet jeśli w danych nie ma wartości odstających, ta metoda i tak usunie ten sam odsetek najwyższych wartości.

Instrukcje

100 XP
  • Wyznacz 95. kwantyl kolumny ConvertedSalary.
  • Przytnij ramkę danych so_numeric_df, zachowując tylko wiersze, w których ConvertedSalary jest mniejsze od jej 95. kwantyla.
  • Narysuj histogram so_numeric_df[['ConvertedSalary']].
  • Narysuj histogram trimmed_df[['ConvertedSalary']].