CommencerCommencer gratuitement

Réduire le risque de ré-identification grâce à la généralisation

Dans cet exercice, vous allez appliquer la généralisation sur le jeu de données IBM HR Analytics Employee Attrition & Performance.

Plus précisément, vous allez transformer la variable monthly_income en une colonne binaire. Le seuil utilisé pour la transformation sera la moyenne des salaires arrondie. Les nouvelles valeurs seront 0 pour celles inférieures ou égales à la moyenne entière, et 1 pour celles qui sont supérieures.

Le jeu de données est chargé dans un DataFrame pandas nommé hr.

Cet exercice fait partie du cours

Confidentialité des données et anonymisation en Python

Afficher le cours

Instructions

  • Calculez la moyenne de la colonne monthly_income avec .mean() et arrondissez-la à un entier. Enregistrez-la dans mean_income.
  • Appliquez une fonction lambda à hr['monthly_income'] pour généraliser les revenus en 0 pour les valeurs inférieures ou égales à mean_income, et en 1 pour celles qui sont supérieures.
  • Affichez les cinq premières lignes du DataFrame hr obtenu.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Calculate the mean value of incomes
mean_income = ____

# Apply generalization by transforming to binary data
hr['monthly_income'] = ____

# See resulting DataFrame
print(____)
Modifier et exécuter le code