1. 학습
  2. /
  3. 강의
  4. /
  5. Python으로 배우는 데이터 프라이버시와 익명화

Connected

연습 문제

프라이버시 예산 회계 도구로 데이터 탐색하기

차등 프라이버시를 제공하는 데이터 탐색 시스템은 여러 질의에 걸쳐 손실되는 프라이버시의 양을 측정하는 프라이버시 예산을 관리해야 합니다.

이 연습 문제에서는 프라이버시 예산을 추적하면서 IBM HR Analytics Employee Attrition & Performance 데이터셋을 탐색해 봅니다. 회계 도구에 지정한 프라이버시 예산을 초과하는 질의가 실행되면 오류가 발생한다는 점을 기억하세요.

히스토그램은 데이터를 차등 프라이버시 방식으로 시각화하는 데 유용한 도구입니다. 구문은 epsilon 매개변수가 추가된 점을 제외하면 numpy의 해당 함수와 동일합니다.

전체 데이터셋은 hr, 직원의 나이 속성은 ages로 제공됩니다. 이 강의에서 이전에 했던 것처럼 히스토그램을 그릴 수 있도록 사용자 정의 함수 show_histogram()이 미리 작성되어 로드되어 있습니다.

지침

100 XP
  • 생성자를 사용해 epsilon이 1.5인 프라이버시 BudgetAccountant를 만드세요.
  • ages 열에서 epsilon 값 0.1로 비공개 히스토그램을 생성하세요.
  • epsilon을 0.9로 하고, 경계를 10부터 100까지의 튜플로 지정하여 ages의 비공개 평균을 구해 출력하세요.
  • 이어지는 두 개의 새 질의를 위해 남아 있는 프라이버시 예산을 출력하세요.