CommencerCommencer gratuitement

Masquage de données avec la PCA

La PCA pour la pseudo-anonymisation est largement utilisée en entreprise. Vous trouverez de nombreux défis et jeux de données Kaggle où les données sont fournies après des transformations PCA.

Une version différentiellement privée de la PCA est également incluse dans diffprivlib dans le module models. Elle est basée sur la classe PCA de sklearn, mais ajoute des arguments optionnels pour epsilon ainsi que des bornes min et max, comme nous l’avons vu au chapitre précédent.

Dans cet exercice, vous allez appliquer un masquage de données avec la PCA sur le jeu de données NBA Salaries, déjà chargé dans players.

Cet exercice fait partie du cours

Confidentialité des données et anonymisation en Python

Afficher le cours

Instructions

  • Importez PCA depuis sklearn.
  • Initialisez PCA() avec un nombre de composantes égal au nombre de colonnes.
  • Appliquez pca à players.
  • Examinez le jeu de données obtenu.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import PCA from Scikit-learn
____

# Initialize PCA with number of components to be the same as the number of columns
pca = ____

# Apply PCA to the data
players_pca = ____

# Print the resulting dataset
print(pd.DataFrame(players_pca))
Modifier et exécuter le code