1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 데이터 프라이버시와 익명화

Connected

연습 문제

동일한 확률 분포를 가진 데이터셋

합성 데이터의 목표는 가능한 한 현실적인 데이터셋을 만들되, 중요한 개인정보를 위협하지 않도록 하는 것입니다. 예를 들어, Deloitte Consulting의 한 팀은 Machine Learning 모델의 학습 데이터 80%를 합성 데이터로 생성했으며, 그 결과 실제 데이터로 학습한 모델과 유사한 정확도를 얻었습니다.

이 연습 문제에서는 p로 불러온 확률 분포를 따르도록 Faker를 사용해 처음부터 합성 데이터셋을 생성해 보겠습니다.

Faker 생성기 fake_data는 이미 초기화되어 있고, numpy는 np로 임포트되어 있습니다.

지침 1/2

undefined XP
    1
    2
  • 리스트 컴프리헨션을 사용해 무작위 도시 5개로 구성된 cities 리스트를 생성해 기존 값을 대체하세요.