Crea un classificatore con privacy differenziale

In questo esercizio, costruirai e addestrerai un modello Gaussian Naive Bayes con privacy differenziale sul dataset Penguin per classificare se un pinguino è maschio o femmina.

La k-anonymity non funziona bene con insiemi di dati ad alta dimensionalità o molto eterogenei a causa di notevoli limiti teorici ed empirici, la cosiddetta "maledizione della dimensionalità". All’aumentare del numero di feature o dimensioni, la quantità di dati necessaria per generalizzare correttamente cresce in modo esponenziale. È uno dei motivi per cui la privacy differenziale è oggi il modello di privacy preferito. Epsilon è indipendente da qualsiasi conoscenza di background e "limita" le informazioni sensibili.

Il DataFrame è caricato come penguin_df ed è suddiviso in X_train, y_train, X_test e y_test. La classe del modello privato è stata importata come dp_GaussianNB.

Questo esercizio fa parte del corso

Riservatezza dei dati e anonimizzazione in Python

Visualizza corso

Istruzioni dell'esercizio

Crea un classificatore dp_GaussianNB senza parametri.
Addestra il modello creato in precedenza sui dati senza alcun parametro.
Calcola lo score del modello privato sui dati di test.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Built the private classifier without parameters
dp_clf = ____

# Fit the model to the data
____(X_train, y_train)

# Print the accuracy score
print("The accuracy with default settings is ", ____(X_test, y_test))

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Riservatezza dei dati e anonimizzazione in Python

AvançadoNível de habilidade

4.9+

Inizia il corso gratuitamente

Preparati ad applicare tecniche di anonimizzazione come soppressione dei dati, mascheramento, generazione di dati sintetici e generalizzazione. In questo capitolo imparerai a distinguere tra PII (informazioni personali identificabili) sensibili e non sensibili, quasi-identificatori e le basi del GDPR. Vedrai anche esempi reali di cosa può andare storto se non segui queste buone pratiche.

Exercise 1: Cosa è privato e perché ci interessa?Exercise 2: La privacy è potere Exercise 3: È sensibile o non sensibile?Exercise 4: Soppressione di attributi sensibili Exercise 5: Data masking e generazione di dati con Faker Exercise 6: Mascherare PII sensibili Exercise 7: Rimozione dei nomi con faker Exercise 8: Anonimizzazione con la generalizzazione dei dati Exercise 9: Ridurre il rischio di identificazione con la generalizzazione Exercise 10: Aggregazione dei dati e generalizzazione dei dati Exercise 11: Top e bottom coding degli stipendi della Casa Bianca

Scopri come anonimizzare i dati campionando da insiemi di dati seguendo la distribuzione di probabilità delle colonne. Imparerai poi ad applicare il modello di privacy k-anonymity per prevenire attacchi di collegamento o re-identificazione e a usare gerarchie per effettuare la generalizzazione dei dati nelle variabili categoriche.

Exercise 1: Anonimizzare i dati categoriali Exercise 2: Esplora la distribuzione dei dati Exercise 3: Campionare dalla stessa distribuzione di probabilità Exercise 4: Anonimizzare i dati continui Exercise 5: Distribuzioni diverse Exercise 6: Campionare dalla migliore distribuzione continua Exercise 7: Introduzione alla k-anonymity Exercise 8: Attributi di privacy Exercise 9: Generalizzare in intervalli Exercise 10: Generalizzare i dati usando le gerarchie Exercise 11: Usare gerarchie per dati categorici Exercise 12: Applicare la k-anonimizzazione a un insieme di dati

Approfondisci la differential privacy, il modello utilizzato da grandi aziende tecnologiche come Apple, Google e Uber. In questo capitolo esplorerai i dati generando istogrammi privati e calcolando medie private. Creerai anche modelli di Machine Learning differenzialmente privati che consentono alle aziende di aumentare l’utilità dei propri dati.

Exercise 1: Introduzione alla differential privacy Exercise 2: Epsilon (ϵ): il numero magico Exercise 3: Istogrammi con privacy differenziale Exercise 4: Budget di privacy Exercise 5: Uso dei budget di privacy Exercise 6: Quando non resta budget Exercise 7: Esplorare i dati con un gestore del budget di privacy Exercise 8: Modelli di Machine Learning con privacy differenziale Exercise 9: Crea un classificatore con privacy differenziale

Esercizio attuale

Exercise 10: Prevedere gli stipendi Exercise 11: Modelli di clustering con differential privacy Exercise 12: Pre-elaborazione dei dati Exercise 13: Segmentazione dei clienti

In questo capitolo finale imparerai ad applicare metodi di riduzione della dimensionalità, come l’analisi delle componenti principali (PCA), per anonimizzare grandi insiemi di dati multi-colonna. Userai poi Faker per generare insiemi di dati realistici e coerenti e scikit-learn per creare insiemi di dati sintetici che seguono una distribuzione normale. Infine, metterai insieme tutto ciò che hai imparato nel corso combinando più tecniche per pubblicare in sicurezza insiemi di dati al pubblico.

Exercise 1: PCA per l’anonimizzazione Exercise 2: Anonimizzazione di dati ad alta dimensionalità Exercise 3: Mascheramento dei dati con PCA Exercise 4: Generare insiemi di dati realistici con Faker Exercise 5: Insieme di dati sintetico coerente Exercise 6: Insiemi di dati con la stessa distribuzione probabilistica Exercise 7: Creare insiemi di dati sintetici con scikit-learn Exercise 8: Generare insiemi di dati per la classificazione Exercise 9: Generazione di insiemi di dati per il clustering Exercise 10: Rilascia in modo sicuro gli insiemi di dati al pubblico Exercise 11: Esplorare e pseudonimizzare un insieme di dati Exercise 12: Preparare i dati dei dipendenti per un rilascio sicuro Exercise 13: Ottimo lavoro!