Gehälter vorhersagen

In dieser Übung verwendest du den Census-Income-Datensatz, um vorherzusagen, ob Personen ein Gehalt von mehr als 50.000 $ pro Jahr haben oder nicht.

Denk daran, beim Erstellen des privaten Modells die Grenzen als Parameter anzugeben, um zusätzlichen Privatsphärenverlust oder Informationsleckagen zu vermeiden. In der Regel kannst du die Grenzen unabhängig von den Daten wählen — mithilfe von Domänenwissen oder durch eine Suche mit einem DP-Histogramm.

Der Datensatz wurde geladen und in X_train, y_train, X_test und y_test aufgeteilt. Der Klassifikator ist als dp_GaussianNB verfügbar.

Diese Übung ist Teil des Kurses

Datenschutz und Anonymisierung mit Python

Anleitung zur Übung

Setze die Grenzen des Modells, indem du die min- und max-Werte in den Trainingsdaten berechnest und für die 5 Spalten unserer Daten zusätzlich Rauschen hinzufügst, indem du Zufallszahlen im Bereich von 5 bis 40 subtrahst bzw. addierst.
Erstelle einen dp_GaussianNB-Klassifikator mit einem Epsilon von 0.5 und den zuvor erstellten Grenzen.
Trainiere das Modell auf den Daten und sieh dir den Score an.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Set the min and max of bounds for the data and add noise using random
bounds = (X_train.____(axis=0) - random.____(range(5, 40), 5), 
          ____)

# Built the classifier with epsilon of 0.5
dp_clf = ____(epsilon=____, bounds=____)

# Fit the model to the data and print the score
____
print("The accuracy of the differentially private model is ",
       dp_clf.score(X_test, y_test))

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Datenschutz und Anonymisierung mit Python

Hohe SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Mach dich bereit, Anonymisierungstechniken wie Datenunterdrückung, Maskierung, synthetische Datengenerierung und Generalisierung anzuwenden. In diesem Kapitel lernst du, zwischen sensiblen und nicht sensiblen personenbezogenen Daten (PII), Quasi-Identifikatoren und den Grundlagen der DSGVO zu unterscheiden. Außerdem siehst du reale Beispiele dafür, was schiefgehen kann, wenn diese Best Practices nicht beachtet werden.

Exercise 1: Was ist privat – und warum ist das wichtig?Exercise 2: Privacy is power Exercise 3: Ist es sensibel oder nicht sensibel?Exercise 4: Unterdrückung sensibler Attribute Exercise 5: Datenmaskierung und Datengenerierung mit Faker Exercise 6: Maskierung sensibler PII Exercise 7: Namen mit faker entfernen Exercise 8: Anonymisieren mit Datengeneralisierung Exercise 9: Identifizierungsrisiko mit Generalisierung senken Exercise 10: Datenaggregation und Datengeneralisierung Exercise 11: Top- und Bottom-Coding für Gehälter im Weißen Haus

Entdecke, wie du Daten anonymisieren kannst, indem du aus Datensätzen gemäß der Wahrscheinlichkeitsverteilung der Spalten samplest. Anschließend lernst du, das Datenschutzmodell der k-Anonymität anzuwenden, um Linkage- oder Re-Identifizierungsangriffe zu verhindern, und Hierarchien zu nutzen, um Generalisierung bei kategorialen Variablen durchzuführen.

Exercise 1: Kategorische Daten anonymisieren Exercise 2: Untersuche die Verteilung der Daten Exercise 3: Stichproben aus derselben Wahrscheinlichkeitsverteilung ziehen Exercise 4: Kontinuierliche Daten anonymisieren Exercise 5: Unterschiedliche Verteilungen Exercise 6: Stichproben aus der besten stetigen Verteilung ziehen Exercise 7: Einführung in K-Anonymität Exercise 8: Datenschutzattribute Exercise 9: Verallgemeinerung in Intervalle Exercise 10: Daten mithilfe von Hierarchien generalisieren Exercise 11: Hierarchien für kategoriale Daten verwenden Exercise 12: Einen Datensatz k-anonymisieren

Lerne differenzielle Privatsphäre kennen – das Modell, das von großen Tech-Unternehmen wie Apple, Google und Uber verwendet wird. In diesem Kapitel untersuchst du Daten, indem du private Histogramme erzeugst und private Mittelwerte berechnest. Außerdem erstellst du differentielle Machine-Learning-Modelle, die Unternehmen dabei helfen, den Nutzen ihrer Daten zu erhöhen.

Exercise 1: Einführung in Differential Privacy Exercise 2: Epsilon (ϵ): die magische Zahl Exercise 3: Histogramme mit Differential Privacy Exercise 4: Privacy Budgets Exercise 5: Verwendung von Privacy-Budgets Exercise 6: Wenn kein Budget mehr übrig ist Exercise 7: Daten erkunden mit einem Privacy-Budget-Accountant Exercise 8: Differenziell private Machine-Learning-Modelle Exercise 9: Erstelle einen differenziell privaten Klassifizierer Exercise 10: Gehälter vorhersagen

Aktuelle Übung

Exercise 11: Differenziell private Clustering-Modelle Exercise 12: Daten vorverarbeiten Exercise 13: Kund:innen segmentieren

In diesem letzten Kapitel lernst du, wie du Methoden zur Dimensionsreduktion wie die Hauptkomponentenanalyse (PCA) anwendest, um große Datensätze mit vielen Spalten zu anonymisieren. Anschließend nutzt du Faker, um realistische und konsistente Datensätze zu generieren, und scikit-learn, um synthetische Datensätze zu erstellen, die einer Normalverteilung folgen. Zum Schluss führst du alles aus diesem Kurs zusammen, indem du mehrere Techniken kombinierst, um Datensätze sicher der Öffentlichkeit zugänglich zu machen.

Exercise 1: PCA zur Anonymisierung Exercise 2: Anonymisierung hochdimensionaler Daten Exercise 3: Datenmaskierung mit PCA Exercise 4: Realistische Datensätze mit Faker erzeugen Exercise 5: Konsistenter synthetischer Datensatz Exercise 6: Datensätze mit derselben Wahrscheinlichkeitsverteilung Exercise 7: Synthetische Datensätze mit scikit-learn erstellen Exercise 8: Datensätze für Klassifikation generieren Exercise 9: Datensätze für Clustering erzeugen Exercise 10: Datensätze sicher öffentlich veröffentlichen Exercise 11: Einen Datensatz untersuchen und pseudonymisieren Exercise 12: Mitarbeitendendaten für eine sichere Veröffentlichung vorbereiten Exercise 13: Großartige Arbeit!