Bouw een differentieel privéklaasificador
In deze oefening bouw en train je een private Gaussian Naive Bayes-classifier op de Penguin-gegevensset om te classificeren of een pinguïn mannelijk of vrouwelijk is.
K-anonimiteit werkt niet goed met hoog-dimensionale of diverse gegevenssets vanwege aanzienlijke theoretische en empirische beperkingen, de “vloek van dimensionaliteit”. Naarmate het aantal features of dimensies toeneemt, groeit de hoeveelheid data die we nodig hebben om goed te generaliseren exponentieel. Dat is een van de redenen waarom differential privacy het huidige, voorkeurs-privacymodel is. Epsilon is onafhankelijk van achtergrondkennis en “begrensd” de gevoelige informatie.
De DataFrame is geladen als penguin_df en gesplitst in X_train, y_train, X_test en y_test. De private modelklasse is geïmporteerd als dp_GaussianNB.
Deze oefening maakt deel uit van de cursus
Dataprivacy en anonimisering in Python
Oefeninstructies
- Maak een
dp_GaussianNB-classifier zonder parameters. - Fit het eerder gemaakte model op de data zonder parameters.
- Bereken de score van het private model op basis van de testdata.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Built the private classifier without parameters
dp_clf = ____
# Fit the model to the data
____(X_train, y_train)
# Print the accuracy score
print("The accuracy with default settings is ", ____(X_test, y_test))