Preprocesarea datelor

Preprocesarea pentru clustering poate fi o modalitate de a pregăti datele pentru o segmentare mai precisă. Un tip de preprocesare este scalarea caracteristicilor – o tehnică de standardizare a caracteristicilor independente din date, astfel încât să se încadreze într-un interval fix, de exemplu 0-1 sau 0-100.

În acest exercițiu, vei aplica clustering pe coloanele parental_level_of_education și writing_score din setul de date privind performanța elevilor, încărcat ca performance. Mai întâi, vei crea și rula un model k-means fără nicio preprocesare. Apoi, vei face același lucru, dar cu preprocesarea datelor prin scalarea caracteristicilor.

Modelul privat k-means a fost importat ca KMeans din diffprivlib.models. Scalerul StandardScaler și reducerea dimensionalității PCA au fost importate din sklearn.

1
- Creează modelul privat de clustering folosind 4 clustere ca argument.
- Potrivește model pe datele performance ca argument.

2
- Standardizează datele cu scalerul standard scaler, folosind metoda .fit_transform().
- Folosește pca pentru a potrivi și transforma datele performance cu metoda .fit_transform().
- Construiește modelul privat KMeans() folosind 4 clustere.
- Potrivește model pe datele performance.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni 1/2

exercițiu