1. Nauka
  2. /
  3. Kursy
  4. /
  5. Prywatność danych i anonimizacja w Pythonie

Connected

ćwiczenie

Uogólnianie do przedziałów

K-anonimowość może być dobrym modelem prywatności dla zbiorów danych, które nie mają wielu wymiarów. Dwie główne techniki anonimizacji służące do przekształcenia zbioru danych w tabelę spełniającą k-anonimowość to uogólnianie i tłumienie.

W tym ćwiczeniu przekształcisz zbiór danych z ocenami satysfakcji pracowników w tabelę spełniającą warunek 3-anonimowości, zawierającą potencjalnie wrażliwe atrybuty, takie jak satisfaction_rate i work_hours. Niektóre kombinacje wartości występują rzadziej niż trzy razy. Popraw to, aby DataFrame spełniał warunek 3-anonimowości.

DataFrame jest dostępny jako employees. Wartość k równa 3 jest również dostępna.

Instrukcje 1/3

undefined XP
    1
    2
    3
  • Oblicz, ile unikalnych kombinacji istnieje dla kolumn birth_year i department.
  • Użyj .reset_index() i nadaj nowo wygenerowanej kolumnie przechowującej liczniki nazwę count, przekazując ją jako argument parametru name.