LoslegenKostenlos loslegen

Erstelle einen differenziell privaten Klassifizierer

In dieser Übung baust und trainierst du ein privates Gaussian-Naive-Bayes-Modell auf dem Penguin-Datensatz, um zu klassifizieren, ob ein Pinguin männlich oder weiblich ist.

K-Anonymität funktioniert bei hochdimensionalen oder heterogenen Datensätzen aufgrund ihrer erheblichen theoretischen und empirischen Einschränkungen — dem „Fluch der Dimensionalität“ — nicht gut. Wenn die Anzahl der Merkmale bzw. Dimensionen wächst, steigt die Datenmenge, die wir für eine präzise Generalisierung benötigen, exponentiell. Das ist einer der Gründe, warum Differential Privacy das aktuell bevorzugte Datenschutzmodell ist. Epsilon ist unabhängig von Vorwissen und „begrenzt“ die preisgegebenen sensiblen Informationen.

Das DataFrame ist als penguin_df geladen und in X_train, y_train, X_test und y_test aufgeteilt. Die Klasse für das private Modell wurde als dp_GaussianNB importiert.

Diese Übung ist Teil des Kurses

Datenschutz und Anonymisierung mit Python

Kurs anzeigen

Anleitung zur Übung

  • Erstelle einen dp_GaussianNB-Klassifizierer ohne Parameter.
  • Fitte das zuvor erstellte Modell ohne weitere Parameter auf die Daten.
  • Berechne den Score des privaten Modells basierend auf den Testdaten.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Built the private classifier without parameters
dp_clf = ____

# Fit the model to the data
____(X_train, y_train)

# Print the accuracy score
print("The accuracy with default settings is ", ____(X_test, y_test))
Code bearbeiten und ausführen