1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Ochrana soukromí a anonymizace dat v Pythonu

Connected

cvičení

Předzpracování dat

Předzpracování dat před clusteringem může přispět k přesnější segmentaci. Jednou z technik předzpracování je škálování příznaků – metoda, která standardizuje nezávislé příznaky v datech do pevně daného rozsahu, např. 0–1 nebo 0–100.

V tomto cvičení provedeš clustering na sloupcích parental_level_of_education a writing_score v datasetu výkonnosti studentů, který je načtený jako performance. Nejprve vytvoříš a spustíš model k-means bez jakéhokoli předzpracování. Potom totéž zopakuješ, ale tentokrát data předzpracuješ pomocí škálování příznaků.

Privátní model k-means byl importován jako KMeans z diffprivlib.models. Scaler StandardScaler a redukce dimenzionality PCA byly importovány ze sklearn.

Instrukce 1/2

undefined XP
  • 1
    • Vytvoř privátní clusteringový model s 4 clustery jako argumentem.
    • Přizpůsob model model datům performance jako argumentu.
  • 2
    • Standardizuj data pomocí scaleru scaler metodou .fit_transform().
    • Použij pca k přizpůsobení a transformaci dat performance metodou .fit_transform().
    • Vytvoř privátní model KMeans() se 4 clustery.
    • Přizpůsob model model datům performance.