1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 데이터 프라이버시와 익명화

Connected

연습 문제

데이터 전처리

클러스터링 전처리는 더 정확한 세분화를 위해 데이터를 준비하는 방법입니다. 전처리의 한 종류인 특성 스케일링은 데이터에 있는 독립 변수들의 범위를 고정 구간(예: 0-1 또는 0-100)에 맞추도록 표준화하는 기법이에요.

이 연습에서는 performance로 로드된 학생 성취도 데이터셋에서 parental_level_of_education과 writing_score 열을 대상으로 클러스터링을 수행합니다. 먼저 전처리를 하지 않은 상태로 k-means 모델을 만들고 실행해 보세요. 그다음, 특성 스케일링으로 전처리를 적용한 뒤 같은 작업을 수행합니다.

프라이빗 k-means 모델은 diffprivlib.models에서 KMeans로 임포트되어 있습니다. 표준화 도구 StandardScaler와 차원 축소 PCA는 sklearn에서 임포트되어 있어요.

지침 1/2

undefined XP
  • 1
    • 4개의 클러스터를 인자로 사용해 프라이빗 클러스터링 모델을 생성하세요.
    • model을 데이터 performance에 맞추세요(인자로 전달).
  • 2
    • 표준 스케일러 scaler의 .fit_transform() 메서드로 데이터를 표준화하세요.
    • pca의 .fit_transform() 메서드로 데이터 performance를 학습하고 변환하세요.
    • 4개의 클러스터로 프라이빗 KMeans() 모델을 구성하세요.
    • model을 데이터 performance에 맞추세요.