Campionare dalla migliore distribuzione continua

Un campionamento casuale da una distribuzione di probabilità ben adattata aiuta a mantenere la privacy. Allo stesso tempo, permette alle parti autorizzate di condurre un'analisi statistica accurata dei dati.

In questo esercizio, renderai anonima la colonna monthly_income del dataset IBM. Nella lezione precedente, hai stabilito che la distribuzione continua exponnorm è il miglior adattamento. Usala per modellare i redditi.

Il dataset è disponibile come hr.

Questo esercizio fa parte del corso

Riservatezza dei dati e anonimizzazione in Python

Visualizza corso

Istruzioni dell'esercizio

Importa il modulo stats dal pacchetto scipy.
Adatta la distribuzione exponnorm alla variabile continua monthly_income per ottenere i parametri della distribuzione e generare successivamente i campioni.
Campiona dalla distribuzione exponnorm e sostituisci monthly_income usando il metodo .rvs(). Specifica la size uguale alla lunghezza della colonna.
Arrotonda gli stipendi all'intero più vicino.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import stats from scipy
____

# Fit the exponnorm distribution to the continuous variable monthly income
params = ____

# Sample from the exponnorm distribution and replace monthly income
hr['monthly_income'] = ____

# Round the salaries to their closest integer
hr['monthly_income'] = ____

# See the resulting dataset
print(hr.head())

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Riservatezza dei dati e anonimizzazione in Python

AvançadoNível de habilidade

4.9+

Inizia il corso gratuitamente

Preparati ad applicare tecniche di anonimizzazione come soppressione dei dati, mascheramento, generazione di dati sintetici e generalizzazione. In questo capitolo imparerai a distinguere tra PII (informazioni personali identificabili) sensibili e non sensibili, quasi-identificatori e le basi del GDPR. Vedrai anche esempi reali di cosa può andare storto se non segui queste buone pratiche.

Exercise 1: Cosa è privato e perché ci interessa?Exercise 2: La privacy è potere Exercise 3: È sensibile o non sensibile?Exercise 4: Soppressione di attributi sensibili Exercise 5: Data masking e generazione di dati con Faker Exercise 6: Mascherare PII sensibili Exercise 7: Rimozione dei nomi con faker Exercise 8: Anonimizzazione con la generalizzazione dei dati Exercise 9: Ridurre il rischio di identificazione con la generalizzazione Exercise 10: Aggregazione dei dati e generalizzazione dei dati Exercise 11: Top e bottom coding degli stipendi della Casa Bianca

Scopri come anonimizzare i dati campionando da insiemi di dati seguendo la distribuzione di probabilità delle colonne. Imparerai poi ad applicare il modello di privacy k-anonymity per prevenire attacchi di collegamento o re-identificazione e a usare gerarchie per effettuare la generalizzazione dei dati nelle variabili categoriche.

Exercise 1: Anonimizzare i dati categoriali Exercise 2: Esplora la distribuzione dei dati Exercise 3: Campionare dalla stessa distribuzione di probabilità Exercise 4: Anonimizzare i dati continui Exercise 5: Distribuzioni diverse Exercise 6: Campionare dalla migliore distribuzione continua

Esercizio attuale

Exercise 7: Introduzione alla k-anonymity Exercise 8: Attributi di privacy Exercise 9: Generalizzare in intervalli Exercise 10: Generalizzare i dati usando le gerarchie Exercise 11: Usare gerarchie per dati categorici Exercise 12: Applicare la k-anonimizzazione a un insieme di dati

Approfondisci la differential privacy, il modello utilizzato da grandi aziende tecnologiche come Apple, Google e Uber. In questo capitolo esplorerai i dati generando istogrammi privati e calcolando medie private. Creerai anche modelli di Machine Learning differenzialmente privati che consentono alle aziende di aumentare l’utilità dei propri dati.

Exercise 1: Introduzione alla differential privacy Exercise 2: Epsilon (ϵ): il numero magico Exercise 3: Istogrammi con privacy differenziale Exercise 4: Budget di privacy Exercise 5: Uso dei budget di privacy Exercise 6: Quando non resta budget Exercise 7: Esplorare i dati con un gestore del budget di privacy Exercise 8: Modelli di Machine Learning con privacy differenziale Exercise 9: Crea un classificatore con privacy differenziale Exercise 10: Prevedere gli stipendi Exercise 11: Modelli di clustering con differential privacy Exercise 12: Pre-elaborazione dei dati Exercise 13: Segmentazione dei clienti

In questo capitolo finale imparerai ad applicare metodi di riduzione della dimensionalità, come l’analisi delle componenti principali (PCA), per anonimizzare grandi insiemi di dati multi-colonna. Userai poi Faker per generare insiemi di dati realistici e coerenti e scikit-learn per creare insiemi di dati sintetici che seguono una distribuzione normale. Infine, metterai insieme tutto ciò che hai imparato nel corso combinando più tecniche per pubblicare in sicurezza insiemi di dati al pubblico.

Exercise 1: PCA per l’anonimizzazione Exercise 2: Anonimizzazione di dati ad alta dimensionalità Exercise 3: Mascheramento dei dati con PCA Exercise 4: Generare insiemi di dati realistici con Faker Exercise 5: Insieme di dati sintetico coerente Exercise 6: Insiemi di dati con la stessa distribuzione probabilistica Exercise 7: Creare insiemi di dati sintetici con scikit-learn Exercise 8: Generare insiemi di dati per la classificazione Exercise 9: Generazione di insiemi di dati per il clustering Exercise 10: Rilascia in modo sicuro gli insiemi di dati al pubblico Exercise 11: Esplorare e pseudonimizzare un insieme di dati Exercise 12: Preparare i dati dei dipendenti per un rilascio sicuro Exercise 13: Ottimo lavoro!