1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 데이터 프라이버시와 익명화

Connected

연습 문제

차등 프라이버시를 적용한 히스토그램

이번 연습에서는 차등 프라이버시 방식에 따라 Heart Failure Prediction 데이터셋에 접근해 보겠습니다. 비공개(프라이빗) 히스토그램과 비프라이빗 히스토그램을 생성하고 분석한 뒤 비교할 거예요.

데이터셋의 age 변수로부터 만들어지는 히스토그램에 집중합니다. 콘솔에서는 원본 DataFrame에 접근할 수 있지만, 실제 상황에서는 글로벌 접근 방식에 따라 차등 프라이버시로 계산된 무작위 잡음을 추가하지 않은 채 공유해서는 안 됩니다.

DataFrame은 heart_df로 로드되어 있고, age 값이 담긴 Series는 ages에 저장되어 있습니다. diffprivlib의 tools는 이미 임포트되어 있어요.

지침 1/3

undefined XP
  • 1
    • ages에서 numpy 히스토그램을 생성하세요.
    • 개수를 정규화하여 비율로 변환하세요.
    • 해당 비율을 사용해 히스토그램을 그리세요.
  • 2
    • tools를 사용해 ages의 차등 프라이빗 히스토그램을 생성하세요.
    • 비율을 구하세요.
    • 히스토그램을 그리세요.
  • 3
    • ages에서 epsilon이 0.4인 차등 프라이빗 히스토그램을 생성하세요.
    • 비율을 구하세요.
    • 히스토그램을 그리세요.