1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 데이터 프라이버시와 익명화

Connected

연습 문제

일관된 합성 데이터셋

기업이 합성 데이터를 활용하는 대표적인 사례 중 하나는 인공지능과 Machine Learning 모델 학습입니다. 실제 데이터는 수집 비용이 많이 들거나 아예 구하기 어려울 때가 있습니다. 학습 데이터의 클래스 불균형이 심한 경우(예: 90% 이상이 한 클래스에 속함), 합성 데이터를 생성해 모델의 정확도를 높일 수 있어요.

이 연습 문제에서는 Faker를 사용해 모바일 앱 평점 데이터셋을 생성합니다.

초기 DataFrame은 ratings이며, rating과 gender 두 열이 있습니다. Faker() 제너레이터는 fake_data로 이미 초기화되어 있어요.

지침 1/3

undefined XP
    1
    2
    3
  • ratings DataFrame에서 gender 열에 맞는 고유한 이름을 담은 name 열을 만드세요.