Datensätze mit derselben Wahrscheinlichkeitsverteilung

Ziel synthetischer Daten ist es, einen Datensatz zu erzeugen, der so realistisch wie möglich ist – ohne dabei sensible personenbezogene Informationen zu gefährden. Ein Team bei Deloitte Consulting hat zum Beispiel 80 % der Trainingsdaten für ein Machine-Learning-Modell durch synthetische Daten ersetzt. Die resultierende Modellgenauigkeit war ähnlich wie bei einem Modell, das mit echten Daten trainiert wurde.

In dieser Übung erstellst du mit Faker von Grund auf einen synthetischen Datensatz, der einer als p geladenen Wahrscheinlichkeitsverteilung folgt.

Der Faker-Generator fake_data ist bereits initialisiert und numpy ist als np importiert.

Diese Übung ist Teil des Kurses

<Kurs>Datenschutz und Anonymisierung mit Python</Kurs>

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Obtain or specify the probabilities
p = (0.46, 0.26, 0.16, 0.1, 0.02)

# Generate 5 random cities 
cities = ____

# See the generated cities
print(cities)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Datenschutz und Anonymisierung mit Python</Kurs>

Hohe SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Mach dich bereit, Anonymisierungstechniken wie Datenunterdrückung, Maskierung, synthetische Datengenerierung und Generalisierung anzuwenden. In diesem Kapitel lernst du, zwischen sensiblen und nicht sensiblen personenbezogenen Daten (PII), Quasi-Identifikatoren und den Grundlagen der DSGVO zu unterscheiden. Außerdem siehst du reale Beispiele dafür, was schiefgehen kann, wenn diese Best Practices nicht beachtet werden.

Exercise 1: Was ist privat – und warum ist das wichtig?Exercise 2: Privacy is power Exercise 3: Ist es sensibel oder nicht sensibel?Exercise 4: Unterdrückung sensibler Attribute Exercise 5: Datenmaskierung und Datengenerierung mit Faker Exercise 6: Maskierung sensibler PII Exercise 7: Namen mit faker entfernen Exercise 8: Anonymisieren mit Datengeneralisierung Exercise 9: Identifizierungsrisiko mit Generalisierung senken Exercise 10: Datenaggregation und Datengeneralisierung Exercise 11: Top- und Bottom-Coding für Gehälter im Weißen Haus

Entdecke, wie du Daten anonymisieren kannst, indem du aus Datensätzen gemäß der Wahrscheinlichkeitsverteilung der Spalten samplest. Anschließend lernst du, das Datenschutzmodell der k-Anonymität anzuwenden, um Linkage- oder Re-Identifizierungsangriffe zu verhindern, und Hierarchien zu nutzen, um Generalisierung bei kategorialen Variablen durchzuführen.

Exercise 1: Kategorische Daten anonymisieren Exercise 2: Untersuche die Verteilung der Daten Exercise 3: Stichproben aus derselben Wahrscheinlichkeitsverteilung ziehen Exercise 4: Kontinuierliche Daten anonymisieren Exercise 5: Unterschiedliche Verteilungen Exercise 6: Stichproben aus der besten stetigen Verteilung ziehen Exercise 7: Einführung in K-Anonymität Exercise 8: Datenschutzattribute Exercise 9: Verallgemeinerung in Intervalle Exercise 10: Daten mithilfe von Hierarchien generalisieren Exercise 11: Hierarchien für kategoriale Daten verwenden Exercise 12: Einen Datensatz k-anonymisieren

Lerne differenzielle Privatsphäre kennen – das Modell, das von großen Tech-Unternehmen wie Apple, Google und Uber verwendet wird. In diesem Kapitel untersuchst du Daten, indem du private Histogramme erzeugst und private Mittelwerte berechnest. Außerdem erstellst du differentielle Machine-Learning-Modelle, die Unternehmen dabei helfen, den Nutzen ihrer Daten zu erhöhen.

Exercise 1: Einführung in Differential Privacy Exercise 2: Epsilon (ϵ): die magische Zahl Exercise 3: Histogramme mit Differential Privacy Exercise 4: Privacy Budgets Exercise 5: Verwendung von Privacy-Budgets Exercise 6: Wenn kein Budget mehr übrig ist Exercise 7: Daten erkunden mit einem Privacy-Budget-Accountant Exercise 8: Differenziell private Machine-Learning-Modelle Exercise 9: Erstelle einen differenziell privaten Klassifizierer Exercise 10: Gehälter vorhersagen Exercise 11: Differenziell private Clustering-Modelle Exercise 12: Daten vorverarbeiten Exercise 13: Kund:innen segmentieren

In diesem letzten Kapitel lernst du, wie du Methoden zur Dimensionsreduktion wie die Hauptkomponentenanalyse (PCA) anwendest, um große Datensätze mit vielen Spalten zu anonymisieren. Anschließend nutzt du Faker, um realistische und konsistente Datensätze zu generieren, und scikit-learn, um synthetische Datensätze zu erstellen, die einer Normalverteilung folgen. Zum Schluss führst du alles aus diesem Kurs zusammen, indem du mehrere Techniken kombinierst, um Datensätze sicher der Öffentlichkeit zugänglich zu machen.

Exercise 1: PCA zur Anonymisierung Exercise 2: Anonymisierung hochdimensionaler Daten Exercise 3: Datenmaskierung mit PCA Exercise 4: Realistische Datensätze mit Faker erzeugen Exercise 5: Konsistenter synthetischer Datensatz Exercise 6: Datensätze mit derselben Wahrscheinlichkeitsverteilung

Aktuelle Übung

Exercise 7: Synthetische Datensätze mit scikit-learn erstellen Exercise 8: Datensätze für Klassifikation generieren Exercise 9: Datensätze für Clustering erzeugen Exercise 10: Datensätze sicher öffentlich veröffentlichen Exercise 11: Einen Datensatz untersuchen und pseudonymisieren Exercise 12: Mitarbeitendendaten für eine sichere Veröffentlichung vorbereiten Exercise 13: Großartige Arbeit!