Datamasking met PCA
PCA voor pseudo-anonimisering wordt veel gebruikt door bedrijven. Op Kaggle vind je meerdere challenges en gegevenssets waarbij de data na PCA-transformaties is aangeleverd.
Een differentieel private versie van PCA is ook beschikbaar in diffprivlib in de module models. Deze is gebaseerd op de PCA-klasse uit sklearn, maar bevat optionele argumenten voor epsilon en minimale en maximale grenzen. Precies zoals we in het vorige hoofdstuk hebben gezien.
In deze oefening pas je datamasking met PCA toe op de NBA Salaries-gegevensset, die al is geladen als players.
Deze oefening maakt deel uit van de cursus
Dataprivacy en anonimisering in Python
Oefeninstructies
- Importeer
PCAuitsklearn. - Initialiseer
PCA()met hetzelfde aantal componenten als het aantal kolommen. - Pas
pcatoe opplayers. - Bekijk de resulterende gegevensset.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import PCA from Scikit-learn
____
# Initialize PCA with number of components to be the same as the number of columns
pca = ____
# Apply PCA to the data
players_pca = ____
# Print the resulting dataset
print(pd.DataFrame(players_pca))