Wstępne przetwarzanie danych

Wstępne przetwarzanie danych przed klastrowaniem to sposób na przygotowanie danych do dokładniejszej segmentacji. Jedną z technik wstępnego przetwarzania jest skalowanie cech – metoda standaryzacji niezależnych cech w zbiorze danych, tak aby mieściły się w określonym przedziale, np. 0–1 lub 0–100.

W tym ćwiczeniu wykonasz klastrowanie na kolumnach parental_level_of_education i writing_score w zbiorze danych o wynikach uczniów, wczytanym jako performance. Najpierw stworzysz i uruchomisz model k-means bez wstępnego przetwarzania danych, a następnie powtórzysz to samo, tym razem stosując skalowanie cech.

Prywatny model k-means został zaimportowany jako KMeans z diffprivlib.models. Skaler StandardScaler oraz redukcja wymiarowości PCA zostały zaimportowane z sklearn.

1
- Utwórz prywatny model klastrowania, używając 4 klastrów jako argumentu.
- Dopasuj model model do danych performance jako argumentu.

2
- Wystandaryzuj dane za pomocą skalera scaler, używając metody .fit_transform().
- Użyj pca, aby dopasować i przekształcić dane performance metodą .fit_transform().
- Zbuduj prywatny model KMeans() z 4 klastrami.
- Dopasuj model model do danych performance.

ćwiczenie

Wstępne przetwarzanie danych

Instrukcje 1/2

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje 1/2

ćwiczenie