1. Learn
  2. /
  3. Courses
  4. /
  5. Wykrywanie anomalii w Pythonie

Connected

Exercise

Ćwiczenie standaryzacji

Używanie KNN bez znajomości rozkładu danych może być ryzykowne. Algorytm działa znacznie gorzej, gdy cechy mają różne skale. Nieprzeliczone cechy zaburzają obliczenia odległości, co prowadzi do błędnych wyników anomalii.

Popularnym sposobem na rozwiązanie tego problemu jest standaryzacja: polega ona na odjęciu średniej od wartości cechy i podzieleniu wyniku przez odchylenie standardowe. Efektem jest cecha o średniej równej 0 i wariancji równej 1.

Przećwicz standaryzację na zbiorze danych females, który jest już wczytany.

Instructions

100 XP
  • Utwórz instancję StandardScaler() i zapisz ją jako ss.
  • Wyodrębnij tablice cech i zmienną docelową do X i y. Zmienną docelową jest kolumna weightkg.
  • Dopasuj StandardScaler() do X i jednocześnie przekształć dane.
  • Powtórz powyższy proces, zachowując tym razem nazwy kolumn z DataFrame X.