Mascheramento dei dati con PCA
La PCA per la pseudo-anonimizzazione è ampiamente utilizzata dalle aziende. Su Kaggle trovi diverse challenge e insiemi di dati in cui i dati sono forniti dopo trasformazioni PCA.
Una versione differenzialmente privata della PCA è inclusa anche in diffprivlib nel modulo models. Si basa sulla classe PCA di sklearn, ma include argomenti opzionali per epsilon e i limiti minimo e massimo. Proprio come abbiamo visto nel capitolo precedente.
In questo esercizio, applicherai il mascheramento dei dati con PCA al dataset degli stipendi NBA, già caricato come players.
Questo esercizio fa parte del corso
Riservatezza dei dati e anonimizzazione in Python
Istruzioni dell'esercizio
- Importa
PCAdasklearn. - Inizializza
PCA()impostando il numero di componenti uguale al numero di colonne. - Applica
pcaaplayers. - Osserva l'insieme di dati risultante.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import PCA from Scikit-learn
____
# Initialize PCA with number of components to be the same as the number of columns
pca = ____
# Apply PCA to the data
players_pca = ____
# Print the resulting dataset
print(pd.DataFrame(players_pca))