1. Nauka
  2. /
  3. Kursy
  4. /
  5. Prywatność danych i anonimizacja w Pythonie

Connected

ćwiczenie

Zmniejszanie ryzyka identyfikacji za pomocą generalizacji

W tym ćwiczeniu zastosujesz generalizację na zbiorze danych IBM HR Analytics Employee Attrition & Performance.

Dokładniej rzecz ujmując, przekształcisz zmienną monthly_income w kolumnę binarną. Progiem używanym do transformacji będzie zaokrąglona w górę średnia wartość wynagrodzeń. Nowe wartości wyniosą 0 dla tych, które są mniejsze lub równe średniej całkowitej, i 1 dla tych, które są od niej większe.

Zbiór danych jest wczytany jako DataFrame hr biblioteki pandas.

Instrukcje

100 XP
  • Oblicz średnią wartość kolumny monthly_income za pomocą .mean() i zaokrąglij ją do liczby całkowitej. Zapisz wynik jako mean_income.
  • Zastosuj funkcję lambda na hr['monthly_income'], aby uogólnić wynagrodzenia: przypisz wartość 0 dla wartości mniejszych lub równych mean_income i wartość 1 dla tych, które są większe.
  • Wyświetl pierwszych pięć wierszy wynikowego DataFrame hr.