데이터 전처리

클러스터링 전처리는 더 정확한 세분화를 위해 데이터를 준비하는 방법입니다. 전처리의 한 종류인 특성 스케일링은 데이터에 있는 독립 변수들의 범위를 고정 구간(예: 0-1 또는 0-100)에 맞추도록 표준화하는 기법이에요.

이 연습에서는 performance로 로드된 학생 성취도 데이터셋에서 parental_level_of_education과 writing_score 열을 대상으로 클러스터링을 수행합니다. 먼저 전처리를 하지 않은 상태로 k-means 모델을 만들고 실행해 보세요. 그다음, 특성 스케일링으로 전처리를 적용한 뒤 같은 작업을 수행합니다.

프라이빗 k-means 모델은 diffprivlib.models에서 KMeans로 임포트되어 있습니다. 표준화 도구 StandardScaler와 차원 축소 PCA는 sklearn에서 임포트되어 있어요.