동일한 확률 분포를 가진 데이터셋

합성 데이터의 목표는 가능한 한 현실적인 데이터셋을 만들되, 중요한 개인정보를 위협하지 않도록 하는 것입니다. 예를 들어, Deloitte Consulting의 한 팀은 Machine Learning 모델의 학습 데이터 80%를 합성 데이터로 생성했으며, 그 결과 실제 데이터로 학습한 모델과 유사한 정확도를 얻었습니다.

이 연습 문제에서는 p로 불러온 확률 분포를 따르도록 Faker를 사용해 처음부터 합성 데이터셋을 생성해 보겠습니다.

Faker 생성기 fake_data는 이미 초기화되어 있고, numpy는 np로 임포트되어 있습니다.