IniziaInizia gratis

Crea un classificatore con privacy differenziale

In questo esercizio, costruirai e addestrerai un modello Gaussian Naive Bayes con privacy differenziale sul dataset Penguin per classificare se un pinguino è maschio o femmina.

La k-anonymity non funziona bene con insiemi di dati ad alta dimensionalità o molto eterogenei a causa di notevoli limiti teorici ed empirici, la cosiddetta "maledizione della dimensionalità". All’aumentare del numero di feature o dimensioni, la quantità di dati necessaria per generalizzare correttamente cresce in modo esponenziale. È uno dei motivi per cui la privacy differenziale è oggi il modello di privacy preferito. Epsilon è indipendente da qualsiasi conoscenza di background e "limita" le informazioni sensibili.

Il DataFrame è caricato come penguin_df ed è suddiviso in X_train, y_train, X_test e y_test. La classe del modello privato è stata importata come dp_GaussianNB.

Questo esercizio fa parte del corso

Riservatezza dei dati e anonimizzazione in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Crea un classificatore dp_GaussianNB senza parametri.
  • Addestra il modello creato in precedenza sui dati senza alcun parametro.
  • Calcola lo score del modello privato sui dati di test.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Built the private classifier without parameters
dp_clf = ____

# Fit the model to the data
____(X_train, y_train)

# Print the accuracy score
print("The accuracy with default settings is ", ____(X_test, y_test))
Modifica ed esegui il codice