Mascheramento dei dati con PCA

La PCA per la pseudo-anonimizzazione è ampiamente utilizzata dalle aziende. Su Kaggle trovi diverse challenge e insiemi di dati in cui i dati sono forniti dopo trasformazioni PCA.

Una versione differenzialmente privata della PCA è inclusa anche in diffprivlib nel modulo models. Si basa sulla classe PCA di sklearn, ma include argomenti opzionali per epsilon e i limiti minimo e massimo. Proprio come abbiamo visto nel capitolo precedente.

In questo esercizio, applicherai il mascheramento dei dati con PCA al dataset degli stipendi NBA, già caricato come players.

Questo esercizio fa parte del corso

Riservatezza dei dati e anonimizzazione in Python

Visualizza corso

Istruzioni dell'esercizio

Importa PCA da sklearn.
Inizializza PCA() impostando il numero di componenti uguale al numero di colonne.
Applica pca a players.
Osserva l'insieme di dati risultante.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import PCA from Scikit-learn
____

# Initialize PCA with number of components to be the same as the number of columns
pca = ____

# Apply PCA to the data
players_pca = ____

# Print the resulting dataset
print(pd.DataFrame(players_pca))

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Riservatezza dei dati e anonimizzazione in Python

AvançadoNível de habilidade

4.9+

Inizia il corso gratuitamente

Preparati ad applicare tecniche di anonimizzazione come soppressione dei dati, mascheramento, generazione di dati sintetici e generalizzazione. In questo capitolo imparerai a distinguere tra PII (informazioni personali identificabili) sensibili e non sensibili, quasi-identificatori e le basi del GDPR. Vedrai anche esempi reali di cosa può andare storto se non segui queste buone pratiche.

Exercise 1: Cosa è privato e perché ci interessa?Exercise 2: La privacy è potere Exercise 3: È sensibile o non sensibile?Exercise 4: Soppressione di attributi sensibili Exercise 5: Data masking e generazione di dati con Faker Exercise 6: Mascherare PII sensibili Exercise 7: Rimozione dei nomi con faker Exercise 8: Anonimizzazione con la generalizzazione dei dati Exercise 9: Ridurre il rischio di identificazione con la generalizzazione Exercise 10: Aggregazione dei dati e generalizzazione dei dati Exercise 11: Top e bottom coding degli stipendi della Casa Bianca

Scopri come anonimizzare i dati campionando da insiemi di dati seguendo la distribuzione di probabilità delle colonne. Imparerai poi ad applicare il modello di privacy k-anonymity per prevenire attacchi di collegamento o re-identificazione e a usare gerarchie per effettuare la generalizzazione dei dati nelle variabili categoriche.

Exercise 1: Anonimizzare i dati categoriali Exercise 2: Esplora la distribuzione dei dati Exercise 3: Campionare dalla stessa distribuzione di probabilità Exercise 4: Anonimizzare i dati continui Exercise 5: Distribuzioni diverse Exercise 6: Campionare dalla migliore distribuzione continua Exercise 7: Introduzione alla k-anonymity Exercise 8: Attributi di privacy Exercise 9: Generalizzare in intervalli Exercise 10: Generalizzare i dati usando le gerarchie Exercise 11: Usare gerarchie per dati categorici Exercise 12: Applicare la k-anonimizzazione a un insieme di dati

Approfondisci la differential privacy, il modello utilizzato da grandi aziende tecnologiche come Apple, Google e Uber. In questo capitolo esplorerai i dati generando istogrammi privati e calcolando medie private. Creerai anche modelli di Machine Learning differenzialmente privati che consentono alle aziende di aumentare l’utilità dei propri dati.

Exercise 1: Introduzione alla differential privacy Exercise 2: Epsilon (ϵ): il numero magico Exercise 3: Istogrammi con privacy differenziale Exercise 4: Budget di privacy Exercise 5: Uso dei budget di privacy Exercise 6: Quando non resta budget Exercise 7: Esplorare i dati con un gestore del budget di privacy Exercise 8: Modelli di Machine Learning con privacy differenziale Exercise 9: Crea un classificatore con privacy differenziale Exercise 10: Prevedere gli stipendi Exercise 11: Modelli di clustering con differential privacy Exercise 12: Pre-elaborazione dei dati Exercise 13: Segmentazione dei clienti

In questo capitolo finale imparerai ad applicare metodi di riduzione della dimensionalità, come l’analisi delle componenti principali (PCA), per anonimizzare grandi insiemi di dati multi-colonna. Userai poi Faker per generare insiemi di dati realistici e coerenti e scikit-learn per creare insiemi di dati sintetici che seguono una distribuzione normale. Infine, metterai insieme tutto ciò che hai imparato nel corso combinando più tecniche per pubblicare in sicurezza insiemi di dati al pubblico.

Exercise 1: PCA per l’anonimizzazione Exercise 2: Anonimizzazione di dati ad alta dimensionalità Exercise 3: Mascheramento dei dati con PCA

Esercizio attuale

Exercise 4: Generare insiemi di dati realistici con Faker Exercise 5: Insieme di dati sintetico coerente Exercise 6: Insiemi di dati con la stessa distribuzione probabilistica Exercise 7: Creare insiemi di dati sintetici con scikit-learn Exercise 8: Generare insiemi di dati per la classificazione Exercise 9: Generazione di insiemi di dati per il clustering Exercise 10: Rilascia in modo sicuro gli insiemi di dati al pubblico Exercise 11: Esplorare e pseudonimizzare un insieme di dati Exercise 12: Preparare i dati dei dipendenti per un rilascio sicuro Exercise 13: Ottimo lavoro!