Erstelle einen differenziell privaten Klassifizierer
In dieser Übung baust und trainierst du ein privates Gaussian-Naive-Bayes-Modell auf dem Penguin-Datensatz, um zu klassifizieren, ob ein Pinguin männlich oder weiblich ist.
K-Anonymität funktioniert bei hochdimensionalen oder heterogenen Datensätzen aufgrund ihrer erheblichen theoretischen und empirischen Einschränkungen — dem „Fluch der Dimensionalität“ — nicht gut. Wenn die Anzahl der Merkmale bzw. Dimensionen wächst, steigt die Datenmenge, die wir für eine präzise Generalisierung benötigen, exponentiell. Das ist einer der Gründe, warum Differential Privacy das aktuell bevorzugte Datenschutzmodell ist. Epsilon ist unabhängig von Vorwissen und „begrenzt“ die preisgegebenen sensiblen Informationen.
Das DataFrame ist als penguin_df geladen und in X_train, y_train, X_test und y_test aufgeteilt. Die Klasse für das private Modell wurde als dp_GaussianNB importiert.
Diese Übung ist Teil des Kurses
Datenschutz und Anonymisierung mit Python
Anleitung zur Übung
- Erstelle einen
dp_GaussianNB-Klassifizierer ohne Parameter. - Fitte das zuvor erstellte Modell ohne weitere Parameter auf die Daten.
- Berechne den Score des privaten Modells basierend auf den Testdaten.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Built the private classifier without parameters
dp_clf = ____
# Fit the model to the data
____(X_train, y_train)
# Print the accuracy score
print("The accuracy with default settings is ", ____(X_test, y_test))