Crea un classificatore con privacy differenziale
In questo esercizio, costruirai e addestrerai un modello Gaussian Naive Bayes con privacy differenziale sul dataset Penguin per classificare se un pinguino è maschio o femmina.
La k-anonymity non funziona bene con insiemi di dati ad alta dimensionalità o molto eterogenei a causa di notevoli limiti teorici ed empirici, la cosiddetta "maledizione della dimensionalità". All’aumentare del numero di feature o dimensioni, la quantità di dati necessaria per generalizzare correttamente cresce in modo esponenziale. È uno dei motivi per cui la privacy differenziale è oggi il modello di privacy preferito. Epsilon è indipendente da qualsiasi conoscenza di background e "limita" le informazioni sensibili.
Il DataFrame è caricato come penguin_df ed è suddiviso in X_train, y_train, X_test e y_test. La classe del modello privato è stata importata come dp_GaussianNB.
Questo esercizio fa parte del corso
Riservatezza dei dati e anonimizzazione in Python
Istruzioni dell'esercizio
- Crea un classificatore
dp_GaussianNBsenza parametri. - Addestra il modello creato in precedenza sui dati senza alcun parametro.
- Calcola lo score del modello privato sui dati di test.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Built the private classifier without parameters
dp_clf = ____
# Fit the model to the data
____(X_train, y_train)
# Print the accuracy score
print("The accuracy with default settings is ", ____(X_test, y_test))