1. Nauka
  2. /
  3. Kursy
  4. /
  5. Prywatność danych i anonimizacja w Pythonie

Connected

ćwiczenie

Eksploracja danych z użyciem księgowego budżetu prywatności

Systemy eksploracji danych zapewniające prywatność różnicową muszą zarządzać budżetem prywatności, który mierzy łączną utratę prywatności w kolejnych zapytaniach.

W tym ćwiczeniu przeprowadzisz eksplorację zbioru danych IBM HR Analytics Employee Attrition & Performance, śledząc jednocześnie budżet prywatności. Pamiętaj, że jeśli zapytanie przekroczy budżet określony w księgowym, zostanie zgłoszony błąd.

Histogram to przydatne narzędzie do wizualizacji danych w sposób zgodny z prywatnością różnicową. Składnia jest taka sama jak w odpowiedniej funkcji biblioteki numpy, z dodatkowym parametrem epsilon.

Pełny zbiór danych jest dostępny jako hr, a atrybut wieku pracowników jako ages. Niestandardowa funkcja show_histogram() została już wczytana – służy do rysowania histogramu, tak jak robiono to wcześniej w kursie.

Instrukcje

100 XP
  • Utwórz BudgetAccountant z wartością epsilon równą 1.5, korzystając z jego konstruktora.
  • Wygeneruj prywatny histogram na podstawie kolumny ages z wartością epsilon równą 0.1.
  • Oblicz i wyświetl prywatną średnią dla ages, używając epsilon o wartości 0.9 i granic od 10 do 100 jako krotki.
  • Wydrukuj pozostały budżet prywatności dla dwóch kolejnych nowych zapytań.