1. Nauka
  2. /
  3. Kursy
  4. /
  5. Ćwiczenie pytań rekrutacyjnych z uczenia maszynowego w Pythonie

Connected

ćwiczenie

Obsługa wartości odstających

W poprzednim ćwiczeniu przekonałeś się, jak przydatna może być wizualizacja wartości odstających podczas rozmowy kwalifikacyjnej z uczenia maszynowego. Innym wygodnym sposobem ich obsługi jest obliczenie wyniku Z, który wyznacza próg dla wartości odstających na poziomie mniej więcej +/-3 odchylenia standardowego od średniej.

W tym ćwiczeniu użyjesz modułu scipy.stats, aby obliczyć wynik Z za pomocą funkcji stats.zscore(), oraz funkcji mstats.winsorize(), aby zastąpić wartości odstające techniką zwaną Winsoryzacją.

Przypomnij sobie z lekcji wideo, że punkty powyżej i/lub poniżej 1,5-krotności IQR należy traktować jako potencjalne wartości odstające. W ostatnim kroku tego ćwiczenia wartość ta wynosi 2120.

Odpowiednie pakiety zostały już zaimportowane, a kolumny liczbowe i kategoryczne zbioru loan_data zostały wydzielone i zapisane odpowiednio jako numeric_cols i categoric_cols.

Machine learning pipeline

Instrukcje 1/3

undefined XP
  • 1
    • Utwórz indeks wierszy do zachowania dla bezwzględnych wyników Z mniejszych niż 3 na kolumnach liczbowych, a następnie użyj go do wyindeksowania i połączenia podzbiorów.
  • 2
    • Zastosuj Winsoryzację na kolumnie 'Monthly Debt' z 5-procentowymi limitami górnym i dolnym, a następnie wyświetl średnią, medianę i maksimum przed oraz po transformacji.
  • 3
    • Wyznacz medianę wartości kolumny Monthly Debt niższych niż 2120 i zastąp nią wartości odstające.