Insiemi di dati con la stessa distribuzione probabilistica

L'obiettivo dei dati sintetici è creare un insieme di dati il più realistico possibile, senza mettere a rischio informazioni personali sensibili. Per esempio, un team di Deloitte Consulting ha generato l'80% dei dati di training per un modello di Machine Learning sintetizzando i dati. L'accuratezza del modello risultante è stata simile a quella di un modello addestrato su dati reali.

In questo esercizio genererai da zero un insieme di dati sintetici usando Faker, seguendo una distribuzione probabilistica caricata come p.

Il generatore di Faker fake_data è già stato inizializzato e numpy è importato come np.

Questo esercizio fa parte del corso

Riservatezza dei dati e anonimizzazione in Python

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Obtain or specify the probabilities
p = (0.46, 0.26, 0.16, 0.1, 0.02)

# Generate 5 random cities 
cities = ____

# See the generated cities
print(cities)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Riservatezza dei dati e anonimizzazione in Python

AvançadoNível de habilidade

4.9+

Inizia il corso gratuitamente

Preparati ad applicare tecniche di anonimizzazione come soppressione dei dati, mascheramento, generazione di dati sintetici e generalizzazione. In questo capitolo imparerai a distinguere tra PII (informazioni personali identificabili) sensibili e non sensibili, quasi-identificatori e le basi del GDPR. Vedrai anche esempi reali di cosa può andare storto se non segui queste buone pratiche.

Exercise 1: Cosa è privato e perché ci interessa?Exercise 2: La privacy è potere Exercise 3: È sensibile o non sensibile?Exercise 4: Soppressione di attributi sensibili Exercise 5: Data masking e generazione di dati con Faker Exercise 6: Mascherare PII sensibili Exercise 7: Rimozione dei nomi con faker Exercise 8: Anonimizzazione con la generalizzazione dei dati Exercise 9: Ridurre il rischio di identificazione con la generalizzazione Exercise 10: Aggregazione dei dati e generalizzazione dei dati Exercise 11: Top e bottom coding degli stipendi della Casa Bianca

Scopri come anonimizzare i dati campionando da insiemi di dati seguendo la distribuzione di probabilità delle colonne. Imparerai poi ad applicare il modello di privacy k-anonymity per prevenire attacchi di collegamento o re-identificazione e a usare gerarchie per effettuare la generalizzazione dei dati nelle variabili categoriche.

Exercise 1: Anonimizzare i dati categoriali Exercise 2: Esplora la distribuzione dei dati Exercise 3: Campionare dalla stessa distribuzione di probabilità Exercise 4: Anonimizzare i dati continui Exercise 5: Distribuzioni diverse Exercise 6: Campionare dalla migliore distribuzione continua Exercise 7: Introduzione alla k-anonymity Exercise 8: Attributi di privacy Exercise 9: Generalizzare in intervalli Exercise 10: Generalizzare i dati usando le gerarchie Exercise 11: Usare gerarchie per dati categorici Exercise 12: Applicare la k-anonimizzazione a un insieme di dati

Approfondisci la differential privacy, il modello utilizzato da grandi aziende tecnologiche come Apple, Google e Uber. In questo capitolo esplorerai i dati generando istogrammi privati e calcolando medie private. Creerai anche modelli di Machine Learning differenzialmente privati che consentono alle aziende di aumentare l’utilità dei propri dati.

Exercise 1: Introduzione alla differential privacy Exercise 2: Epsilon (ϵ): il numero magico Exercise 3: Istogrammi con privacy differenziale Exercise 4: Budget di privacy Exercise 5: Uso dei budget di privacy Exercise 6: Quando non resta budget Exercise 7: Esplorare i dati con un gestore del budget di privacy Exercise 8: Modelli di Machine Learning con privacy differenziale Exercise 9: Crea un classificatore con privacy differenziale Exercise 10: Prevedere gli stipendi Exercise 11: Modelli di clustering con differential privacy Exercise 12: Pre-elaborazione dei dati Exercise 13: Segmentazione dei clienti

In questo capitolo finale imparerai ad applicare metodi di riduzione della dimensionalità, come l’analisi delle componenti principali (PCA), per anonimizzare grandi insiemi di dati multi-colonna. Userai poi Faker per generare insiemi di dati realistici e coerenti e scikit-learn per creare insiemi di dati sintetici che seguono una distribuzione normale. Infine, metterai insieme tutto ciò che hai imparato nel corso combinando più tecniche per pubblicare in sicurezza insiemi di dati al pubblico.

Exercise 1: PCA per l’anonimizzazione Exercise 2: Anonimizzazione di dati ad alta dimensionalità Exercise 3: Mascheramento dei dati con PCA Exercise 4: Generare insiemi di dati realistici con Faker Exercise 5: Insieme di dati sintetico coerente Exercise 6: Insiemi di dati con la stessa distribuzione probabilistica

Esercizio attuale

Exercise 7: Creare insiemi di dati sintetici con scikit-learn Exercise 8: Generare insiemi di dati per la classificazione Exercise 9: Generazione di insiemi di dati per il clustering Exercise 10: Rilascia in modo sicuro gli insiemi di dati al pubblico Exercise 11: Esplorare e pseudonimizzare un insieme di dati Exercise 12: Preparare i dati dei dipendenti per un rilascio sicuro Exercise 13: Ottimo lavoro!