1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech w uczeniu maszynowym w Pythonie

Connected

ćwiczenie

Usuwanie wartości odstających metodą statystyczną

Usuwanie górnych N% danych jest przydatne, gdy chcemy pozbyć się wyraźnie błędnych punktów, ale ma jedną wadę: zawsze eliminuje tę samą proporcję danych, nawet jeśli są one prawidłowe. Popularną alternatywą jest usuwanie obserwacji oddalonych o więcej niż trzy odchylenia standardowe od średniej. Aby to zrealizować, oblicz średnią i odchylenie standardowe odpowiedniej kolumny, wyznacz górną i dolną granicę, a następnie zastosuj je jako maskę dla ramki danych. Ta metoda usuwa tylko dane naprawdę różniące się od reszty – jeśli dane są skupione blisko siebie, usuniętych punktów będzie mniej.

Instrukcje

100 XP
  • Oblicz odchylenie standardowe i średnią kolumny ConvertedSalary z ramki danych so_numeric_df.
  • Wyznacz górną i dolną granicę jako wartości oddalone o trzy odchylenia standardowe od średniej w obu kierunkach.
  • Ogranicz ramkę danych so_numeric_df do wierszy, w których wartość ConvertedSalary mieści się między lower a upper.