Ridurre il rischio di identificazione con la generalizzazione

In questo esercizio applicherai la generalizzazione al dataset IBM HR Analytics Employee Attrition & Performance.

In particolare, trasformerai la variabile monthly_income in una colonna binaria. La soglia da usare per la trasformazione sarà il valore medio degli stipendi arrotondato. I nuovi valori saranno 0 per quelli minori o uguali alla media intera e 1 per quelli maggiori.

Il dataset è caricato come pandas DataFrame hr.

Questo esercizio fa parte del corso

Riservatezza dei dati e anonimizzazione in Python

Visualizza corso

Istruzioni dell'esercizio

Calcola il valore medio della colonna monthly_income usando .mean() e arrotondalo a un intero. Salvalo come mean_income.
Applica una funzione lambda a hr['monthly_income'] per generalizzare i redditi a 0 per i valori minori o uguali a mean_income e a 1 per quelli maggiori.
Esplora le prime cinque righe del DataFrame risultante hr.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Calculate the mean value of incomes
mean_income = ____

# Apply generalization by transforming to binary data
hr['monthly_income'] = ____

# See resulting DataFrame
print(____)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Riservatezza dei dati e anonimizzazione in Python

AvançadoNível de habilidade

4.9+

Inizia il corso gratuitamente

Preparati ad applicare tecniche di anonimizzazione come soppressione dei dati, mascheramento, generazione di dati sintetici e generalizzazione. In questo capitolo imparerai a distinguere tra PII (informazioni personali identificabili) sensibili e non sensibili, quasi-identificatori e le basi del GDPR. Vedrai anche esempi reali di cosa può andare storto se non segui queste buone pratiche.

Exercise 1: Cosa è privato e perché ci interessa?Exercise 2: La privacy è potere Exercise 3: È sensibile o non sensibile?Exercise 4: Soppressione di attributi sensibili Exercise 5: Data masking e generazione di dati con Faker Exercise 6: Mascherare PII sensibili Exercise 7: Rimozione dei nomi con faker Exercise 8: Anonimizzazione con la generalizzazione dei dati Exercise 9: Ridurre il rischio di identificazione con la generalizzazione

Esercizio attuale

Exercise 10: Aggregazione dei dati e generalizzazione dei dati Exercise 11: Top e bottom coding degli stipendi della Casa Bianca

Scopri come anonimizzare i dati campionando da insiemi di dati seguendo la distribuzione di probabilità delle colonne. Imparerai poi ad applicare il modello di privacy k-anonymity per prevenire attacchi di collegamento o re-identificazione e a usare gerarchie per effettuare la generalizzazione dei dati nelle variabili categoriche.

Exercise 1: Anonimizzare i dati categoriali Exercise 2: Esplora la distribuzione dei dati Exercise 3: Campionare dalla stessa distribuzione di probabilità Exercise 4: Anonimizzare i dati continui Exercise 5: Distribuzioni diverse Exercise 6: Campionare dalla migliore distribuzione continua Exercise 7: Introduzione alla k-anonymity Exercise 8: Attributi di privacy Exercise 9: Generalizzare in intervalli Exercise 10: Generalizzare i dati usando le gerarchie Exercise 11: Usare gerarchie per dati categorici Exercise 12: Applicare la k-anonimizzazione a un insieme di dati

Approfondisci la differential privacy, il modello utilizzato da grandi aziende tecnologiche come Apple, Google e Uber. In questo capitolo esplorerai i dati generando istogrammi privati e calcolando medie private. Creerai anche modelli di Machine Learning differenzialmente privati che consentono alle aziende di aumentare l’utilità dei propri dati.

Exercise 1: Introduzione alla differential privacy Exercise 2: Epsilon (ϵ): il numero magico Exercise 3: Istogrammi con privacy differenziale Exercise 4: Budget di privacy Exercise 5: Uso dei budget di privacy Exercise 6: Quando non resta budget Exercise 7: Esplorare i dati con un gestore del budget di privacy Exercise 8: Modelli di Machine Learning con privacy differenziale Exercise 9: Crea un classificatore con privacy differenziale Exercise 10: Prevedere gli stipendi Exercise 11: Modelli di clustering con differential privacy Exercise 12: Pre-elaborazione dei dati Exercise 13: Segmentazione dei clienti

In questo capitolo finale imparerai ad applicare metodi di riduzione della dimensionalità, come l’analisi delle componenti principali (PCA), per anonimizzare grandi insiemi di dati multi-colonna. Userai poi Faker per generare insiemi di dati realistici e coerenti e scikit-learn per creare insiemi di dati sintetici che seguono una distribuzione normale. Infine, metterai insieme tutto ciò che hai imparato nel corso combinando più tecniche per pubblicare in sicurezza insiemi di dati al pubblico.

Exercise 1: PCA per l’anonimizzazione Exercise 2: Anonimizzazione di dati ad alta dimensionalità Exercise 3: Mascheramento dei dati con PCA Exercise 4: Generare insiemi di dati realistici con Faker Exercise 5: Insieme di dati sintetico coerente Exercise 6: Insiemi di dati con la stessa distribuzione probabilistica Exercise 7: Creare insiemi di dati sintetici con scikit-learn Exercise 8: Generare insiemi di dati per la classificazione Exercise 9: Generazione di insiemi di dati per il clustering Exercise 10: Rilascia in modo sicuro gli insiemi di dati al pubblico Exercise 11: Esplorare e pseudonimizzare un insieme di dati Exercise 12: Preparare i dati dei dipendenti per un rilascio sicuro Exercise 13: Ottimo lavoro!