IniziaInizia gratis

Mascheramento dei dati con PCA

La PCA per la pseudo-anonimizzazione è ampiamente utilizzata dalle aziende. Su Kaggle trovi diverse challenge e insiemi di dati in cui i dati sono forniti dopo trasformazioni PCA.

Una versione differenzialmente privata della PCA è inclusa anche in diffprivlib nel modulo models. Si basa sulla classe PCA di sklearn, ma include argomenti opzionali per epsilon e i limiti minimo e massimo. Proprio come abbiamo visto nel capitolo precedente.

In questo esercizio, applicherai il mascheramento dei dati con PCA al dataset degli stipendi NBA, già caricato come players.

Questo esercizio fa parte del corso

Riservatezza dei dati e anonimizzazione in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Importa PCA da sklearn.
  • Inizializza PCA() impostando il numero di componenti uguale al numero di colonne.
  • Applica pca a players.
  • Osserva l'insieme di dati risultante.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import PCA from Scikit-learn
____

# Initialize PCA with number of components to be the same as the number of columns
pca = ____

# Apply PCA to the data
players_pca = ____

# Print the resulting dataset
print(pd.DataFrame(players_pca))
Modifica ed esegui il codice