1. Nauka
  2. /
  3. Kursy
  4. /
  5. Prywatność danych i anonimizacja w Pythonie

Connected

ćwiczenie

Wstępne przetwarzanie danych

Wstępne przetwarzanie danych przed klastrowaniem to sposób na przygotowanie danych do dokładniejszej segmentacji. Jedną z technik wstępnego przetwarzania jest skalowanie cech – metoda standaryzacji niezależnych cech w zbiorze danych, tak aby mieściły się w określonym przedziale, np. 0–1 lub 0–100.

W tym ćwiczeniu wykonasz klastrowanie na kolumnach parental_level_of_education i writing_score w zbiorze danych o wynikach uczniów, wczytanym jako performance. Najpierw stworzysz i uruchomisz model k-means bez wstępnego przetwarzania danych, a następnie powtórzysz to samo, tym razem stosując skalowanie cech.

Prywatny model k-means został zaimportowany jako KMeans z diffprivlib.models. Skaler StandardScaler oraz redukcja wymiarowości PCA zostały zaimportowane z sklearn.

Instrukcje 1/2

undefined XP
  • 1
    • Utwórz prywatny model klastrowania, używając 4 klastrów jako argumentu.
    • Dopasuj model model do danych performance jako argumentu.
  • 2
    • Wystandaryzuj dane za pomocą skalera scaler, używając metody .fit_transform().
    • Użyj pca, aby dopasować i przekształcić dane performance metodą .fit_transform().
    • Zbuduj prywatny model KMeans() z 4 klastrami.
    • Dopasuj model model do danych performance.