Réduire le risque de ré-identification grâce à la généralisation
Dans cet exercice, vous allez appliquer la généralisation sur le jeu de données IBM HR Analytics Employee Attrition & Performance.
Plus précisément, vous allez transformer la variable monthly_income en une colonne binaire. Le seuil utilisé pour la transformation sera la moyenne des salaires arrondie. Les nouvelles valeurs seront 0 pour celles inférieures ou égales à la moyenne entière, et 1 pour celles qui sont supérieures.
Le jeu de données est chargé dans un DataFrame pandas nommé hr.
Cet exercice fait partie du cours
<cours>Confidentialité des données et anonymisation en Python</cours>Instructions de l’exercice
- Calculez la moyenne de la colonne
monthly_incomeavec.mean()et arrondissez-la à un entier. Enregistrez-la dansmean_income. - Appliquez une fonction
lambdaàhr['monthly_income']pour généraliser les revenus en 0 pour les valeurs inférieures ou égales àmean_income, et en 1 pour celles qui sont supérieures. - Affichez les cinq premières lignes du DataFrame
hrobtenu.
Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Calculate the mean value of incomes
mean_income = ____
# Apply generalization by transforming to binary data
hr['monthly_income'] = ____
# See resulting DataFrame
print(____)