CommencerCommencez gratuitement

Réduire le risque de ré-identification grâce à la généralisation

Dans cet exercice, vous allez appliquer la généralisation sur le jeu de données IBM HR Analytics Employee Attrition & Performance.

Plus précisément, vous allez transformer la variable monthly_income en une colonne binaire. Le seuil utilisé pour la transformation sera la moyenne des salaires arrondie. Les nouvelles valeurs seront 0 pour celles inférieures ou égales à la moyenne entière, et 1 pour celles qui sont supérieures.

Le jeu de données est chargé dans un DataFrame pandas nommé hr.

Cet exercice fait partie du cours

<cours>Confidentialité des données et anonymisation en Python</cours>
Voir le cours

Instructions de l’exercice

  • Calculez la moyenne de la colonne monthly_income avec .mean() et arrondissez-la à un entier. Enregistrez-la dans mean_income.
  • Appliquez une fonction lambda à hr['monthly_income'] pour généraliser les revenus en 0 pour les valeurs inférieures ou égales à mean_income, et en 1 pour celles qui sont supérieures.
  • Affichez les cinq premières lignes du DataFrame hr obtenu.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Calculate the mean value of incomes
mean_income = ____

# Apply generalization by transforming to binary data
hr['monthly_income'] = ____

# See resulting DataFrame
print(____)
Modifier et exécuter le code