1. Learn
  2. /
  3. Cursuri
  4. /
  5. Confidențialitatea datelor și anonimizarea în Python

Connected

exercițiu

Reducerea riscului de identificare prin generalizare

În acest exercițiu, vei aplica generalizarea pe setul de date IBM HR Analytics Employee Attrition & Performance.

Mai concret, vei transforma variabila monthly_income într-o coloană binară. Pragul folosit pentru transformare va fi media salariilor, rotunjită în sus la număr întreg. Noile valori vor fi 0 pentru salariile mai mici sau egale cu media întreagă și 1 pentru cele mai mari.

Setul de date este încărcat ca DataFrame pandas hr.

Instrucțiuni

100 XP
  • Calculează valoarea medie a coloanei monthly_income folosind .mean() și rotunjește-o la un număr întreg. Salvează rezultatul ca mean_income.
  • Aplică o funcție lambda pe hr['monthly_income'] pentru a generaliza veniturile: 0 pentru valorile mai mici sau egale cu mean_income și 1 pentru cele mai mari.
  • Explorează primele cinci rânduri ale DataFrame-ului rezultat hr.