LoslegenKostenlos loslegen

Datenmaskierung mit PCA

PCA zur Pseudo-Anonymisierung wird in Unternehmen häufig eingesetzt. Auf Kaggle findest du mehrere Challenges und Datensätze, bei denen die Daten nach PCA-Transformationen bereitgestellt werden.

Eine differentially private Variante von PCA ist in diffprivlib im Modul models enthalten. Sie basiert auf der PCA-Klasse aus sklearn, enthält aber optionale Argumente für Epsilon sowie minimale und maximale Grenzen. Genau wie im vorherigen Kapitel gesehen.

In dieser Übung wendest du Datenmaskierung mit PCA auf den NBA-Salaries-Datensatz an, der bereits als players geladen ist.

Diese Übung ist Teil des Kurses

Datenschutz und Anonymisierung mit Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere PCA aus sklearn.
  • Initialisiere PCA() mit der Anzahl der Komponenten, die der Anzahl der Spalten entspricht.
  • Wende pca auf players an.
  • Sieh dir den resultierenden Datensatz an.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import PCA from Scikit-learn
____

# Initialize PCA with number of components to be the same as the number of columns
pca = ____

# Apply PCA to the data
players_pca = ____

# Print the resulting dataset
print(pd.DataFrame(players_pca))
Code bearbeiten und ausführen