Datenmaskierung mit PCA
PCA zur Pseudo-Anonymisierung wird in Unternehmen häufig eingesetzt. Auf Kaggle findest du mehrere Challenges und Datensätze, bei denen die Daten nach PCA-Transformationen bereitgestellt werden.
Eine differentially private Variante von PCA ist in diffprivlib im Modul models enthalten. Sie basiert auf der PCA-Klasse aus sklearn, enthält aber optionale Argumente für Epsilon sowie minimale und maximale Grenzen. Genau wie im vorherigen Kapitel gesehen.
In dieser Übung wendest du Datenmaskierung mit PCA auf den NBA-Salaries-Datensatz an, der bereits als players geladen ist.
Diese Übung ist Teil des Kurses
Datenschutz und Anonymisierung mit Python
Anleitung zur Übung
- Importiere
PCAaussklearn. - Initialisiere
PCA()mit der Anzahl der Komponenten, die der Anzahl der Spalten entspricht. - Wende
pcaaufplayersan. - Sieh dir den resultierenden Datensatz an.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import PCA from Scikit-learn
____
# Initialize PCA with number of components to be the same as the number of columns
pca = ____
# Apply PCA to the data
players_pca = ____
# Print the resulting dataset
print(pd.DataFrame(players_pca))