클러스터링용 데이터셋 생성하기

합성 데이터는 전적으로 합법이며 전 세계 개인정보보호 법규의 요구 사항을 모두 충족합니다. 원시 데이터를 대체할 수 있는 유효하고 프라이버시를 고려한 방법이죠. make_blobs() 함수는 가우시안(정규) 분포를 따르는 데이터 포인트를 생성할 수 있습니다.

이번 연습에서는 15000개의 샘플로 구성된 데이터셋을 생성해 보겠습니다.

numpy는 이미 np로 임포트되어 있으며, 사용자 정의 함수 plot_data_points()도 이 연습을 위해 다시 제공되어 있습니다.