1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 데이터 프라이버시와 익명화

Connected

연습 문제

클러스터링용 데이터셋 생성하기

합성 데이터는 전적으로 합법이며 전 세계 개인정보보호 법규의 요구 사항을 모두 충족합니다. 원시 데이터를 대체할 수 있는 유효하고 프라이버시를 고려한 방법이죠. make_blobs() 함수는 가우시안(정규) 분포를 따르는 데이터 포인트를 생성할 수 있습니다.

이번 연습에서는 15000개의 샘플로 구성된 데이터셋을 생성해 보겠습니다.

numpy는 이미 np로 임포트되어 있으며, 사용자 정의 함수 plot_data_points()도 이 연습을 위해 다시 제공되어 있습니다.

지침

100 XP
  • 클러스터링 데이터셋을 생성하기 위해 datasets 모듈에서 해당 함수를 임포트하세요.
  • 2개의 특징, 2개의 중심, 클러스터 표준편차가 3인 15000개 샘플의 데이터셋을 생성하세요.
  • 생성된 데이터의 모양을 출력하세요.
  • 2차원 산점도로 결과 데이터 포인트를 확인하세요.