1. Learn
  2. /
  3. Cursuri
  4. /
  5. Confidențialitatea datelor și anonimizarea în Python

Connected

exercițiu

Preprocesarea datelor

Preprocesarea pentru clustering poate fi o modalitate de a pregăti datele pentru o segmentare mai precisă. Un tip de preprocesare este scalarea caracteristicilor – o tehnică de standardizare a caracteristicilor independente din date, astfel încât să se încadreze într-un interval fix, de exemplu 0-1 sau 0-100.

În acest exercițiu, vei aplica clustering pe coloanele parental_level_of_education și writing_score din setul de date privind performanța elevilor, încărcat ca performance. Mai întâi, vei crea și rula un model k-means fără nicio preprocesare. Apoi, vei face același lucru, dar cu preprocesarea datelor prin scalarea caracteristicilor.

Modelul privat k-means a fost importat ca KMeans din diffprivlib.models. Scalerul StandardScaler și reducerea dimensionalității PCA au fost importate din sklearn.

Instrucțiuni 1/2

undefined XP
  • 1
    • Creează modelul privat de clustering folosind 4 clustere ca argument.
    • Potrivește model pe datele performance ca argument.
  • 2
    • Standardizează datele cu scalerul standard scaler, folosind metoda .fit_transform().
    • Folosește pca pentru a potrivi și transforma datele performance cu metoda .fit_transform().
    • Construiește modelul privat KMeans() folosind 4 clustere.
    • Potrivește model pe datele performance.