Zmniejszanie ryzyka identyfikacji za pomocą generalizacji

W tym ćwiczeniu zastosujesz generalizację na zbiorze danych IBM HR Analytics Employee Attrition & Performance.

Dokładniej rzecz ujmując, przekształcisz zmienną monthly_income w kolumnę binarną. Progiem używanym do transformacji będzie zaokrąglona w górę średnia wartość wynagrodzeń. Nowe wartości wyniosą 0 dla tych, które są mniejsze lub równe średniej całkowitej, i 1 dla tych, które są od niej większe.

Zbiór danych jest wczytany jako DataFrame hr biblioteki pandas.

Oblicz średnią wartość kolumny monthly_income za pomocą .mean() i zaokrąglij ją do liczby całkowitej. Zapisz wynik jako mean_income.
Zastosuj funkcję lambda na hr['monthly_income'], aby uogólnić wynagrodzenia: przypisz wartość 0 dla wartości mniejszych lub równych mean_income i wartość 1 dla tych, które są większe.
Wyświetl pierwszych pięć wierszy wynikowego DataFrame hr.

ćwiczenie

Zmniejszanie ryzyka identyfikacji za pomocą generalizacji

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie