Masquage de données avec la PCA
La PCA pour la pseudo-anonymisation est largement utilisée en entreprise. Vous trouverez de nombreux défis et jeux de données Kaggle où les données sont fournies après des transformations PCA.
Une version différentiellement privée de la PCA est également incluse dans diffprivlib dans le module models. Elle est basée sur la classe PCA de sklearn, mais ajoute des arguments optionnels pour epsilon ainsi que des bornes min et max, comme nous l’avons vu au chapitre précédent.
Dans cet exercice, vous allez appliquer un masquage de données avec la PCA sur le jeu de données NBA Salaries, déjà chargé dans players.
Cet exercice fait partie du cours
Confidentialité des données et anonymisation en Python
Instructions
- Importez
PCAdepuissklearn. - Initialisez
PCA()avec un nombre de composantes égal au nombre de colonnes. - Appliquez
pcaàplayers. - Examinez le jeu de données obtenu.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import PCA from Scikit-learn
____
# Initialize PCA with number of components to be the same as the number of columns
pca = ____
# Apply PCA to the data
players_pca = ____
# Print the resulting dataset
print(pd.DataFrame(players_pca))