1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 데이터 프라이버시와 익명화

Connected

연습 문제

분류용 데이터셋 생성하기

원하는 모든 기준 조합을 만족하는 실제 데이터셋을 찾기는 어렵고, 설령 수집하더라도 개인정보 보호 이슈가 있을 수 있습니다. 해결책으로, 데이터셋 생성기를 사용하면 현실 세계 데이터셋을 잘 근사한 데이터를 만들 수 있습니다.

이 연습 문제에서는 3개 클래스 분류 문제를 위한 대규모 데이터셋을 생성합니다. 산점도로 쉽게 시각화할 수 있도록, 커스텀 함수 plot_data_points()가 제공됩니다.

지침

100 XP
  • 분류용 데이터셋을 생성하기 위해 sklearn.datasets에서 해당 함수를 가져오세요.
  • 4개의 특성과 클래스당 1개의 클러스터, 3개의 클래스, 클래스 분리도 2를 갖는 5000개의 샘플을 생성하세요.
  • 생성된 데이터의 shape을 출력하세요.
  • 결과 산점도를 확인하세요.