Předzpracování dat

Předzpracování dat před clusteringem může přispět k přesnější segmentaci. Jednou z technik předzpracování je škálování příznaků – metoda, která standardizuje nezávislé příznaky v datech do pevně daného rozsahu, např. 0–1 nebo 0–100.

V tomto cvičení provedeš clustering na sloupcích parental_level_of_education a writing_score v datasetu výkonnosti studentů, který je načtený jako performance. Nejprve vytvoříš a spustíš model k-means bez jakéhokoli předzpracování. Potom totéž zopakuješ, ale tentokrát data předzpracuješ pomocí škálování příznaků.

Privátní model k-means byl importován jako KMeans z diffprivlib.models. Scaler StandardScaler a redukce dimenzionality PCA byly importovány ze sklearn.

1
- Vytvoř privátní clusteringový model s 4 clustery jako argumentem.
- Přizpůsob model model datům performance jako argumentu.

2
- Standardizuj data pomocí scaleru scaler metodou .fit_transform().
- Použij pca k přizpůsobení a transformaci dat performance metodou .fit_transform().
- Vytvoř privátní model KMeans() se 4 clustery.
- Přizpůsob model model datům performance.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Instrukce 1/2

cvičení