Aan de slagGa gratis aan de slag

Datamasking met PCA

PCA voor pseudo-anonimisering wordt veel gebruikt door bedrijven. Op Kaggle vind je meerdere challenges en gegevenssets waarbij de data na PCA-transformaties is aangeleverd.

Een differentieel private versie van PCA is ook beschikbaar in diffprivlib in de module models. Deze is gebaseerd op de PCA-klasse uit sklearn, maar bevat optionele argumenten voor epsilon en minimale en maximale grenzen. Precies zoals we in het vorige hoofdstuk hebben gezien.

In deze oefening pas je datamasking met PCA toe op de NBA Salaries-gegevensset, die al is geladen als players.

Deze oefening maakt deel uit van de cursus

Dataprivacy en anonimisering in Python

Cursus bekijken

Oefeninstructies

  • Importeer PCA uit sklearn.
  • Initialiseer PCA() met hetzelfde aantal componenten als het aantal kolommen.
  • Pas pca toe op players.
  • Bekijk de resulterende gegevensset.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import PCA from Scikit-learn
____

# Initialize PCA with number of components to be the same as the number of columns
pca = ____

# Apply PCA to the data
players_pca = ____

# Print the resulting dataset
print(pd.DataFrame(players_pca))
Code bewerken en uitvoeren