1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Ochrana soukromí a anonymizace dat v Pythonu

Connected

cvičení

Snížení rizika identifikace pomocí generalizace

V tomto cvičení aplikuješ generalizaci na datovou sadu IBM HR Analytics Employee Attrition & Performance.

Konkrétně transformuješ proměnnou monthly_income na binární sloupec. Prahová hodnota pro transformaci bude zaokrouhlený průměr platů. Nové hodnoty budou 0 pro ty, které jsou menší nebo rovny celočíselnému průměru, a 1 pro ty, které jsou větší.

Dataset je načten jako pandas DataFrame hr.

Pokyny

100 XP
  • Vypočítej průměrnou hodnotu sloupce monthly_income pomocí .mean() a zaokrouhli ji na celé číslo. Ulož ji jako mean_income.
  • Aplikuj lambda funkci na hr['monthly_income'], aby se příjmy generalizovaly na 0 pro hodnoty menší nebo rovné mean_income a na 1 pro hodnoty větší.
  • Prozkoumej prvních pět řádků výsledného DataFrame hr.