Réduire le risque de ré-identification grâce à la généralisation
Dans cet exercice, vous allez appliquer la généralisation sur le jeu de données IBM HR Analytics Employee Attrition & Performance.
Plus précisément, vous allez transformer la variable monthly_income en une colonne binaire. Le seuil utilisé pour la transformation sera la moyenne des salaires arrondie. Les nouvelles valeurs seront 0 pour celles inférieures ou égales à la moyenne entière, et 1 pour celles qui sont supérieures.
Le jeu de données est chargé dans un DataFrame pandas nommé hr.
Cet exercice fait partie du cours
Confidentialité des données et anonymisation en Python
Instructions
- Calculez la moyenne de la colonne
monthly_incomeavec.mean()et arrondissez-la à un entier. Enregistrez-la dansmean_income. - Appliquez une fonction
lambdaàhr['monthly_income']pour généraliser les revenus en 0 pour les valeurs inférieures ou égales àmean_income, et en 1 pour celles qui sont supérieures. - Affichez les cinq premières lignes du DataFrame
hrobtenu.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Calculate the mean value of incomes
mean_income = ____
# Apply generalization by transforming to binary data
hr['monthly_income'] = ____
# See resulting DataFrame
print(____)