Datensätze für Clustering erzeugen

Synthetische Daten sind rechtlich unbedenklich und erfüllen weltweit die Anforderungen von Datenschutzgesetzen und -vorschriften. Sie sind eine gültige, datenschutzfreundliche Alternative zu Rohdaten. Die Funktion make_blobs() kann verwendet werden, um Datenpunkte mit einer Gaußschen (normalen) Verteilung zu erzeugen.

In dieser Übung erzeugst du einen Datensatz mit 15000 Stichproben.

numpy wurde bereits als np importiert, und die benutzerdefinierte Funktion plot_data_points() steht dir in dieser Übung wieder zur Verfügung.

Diese Übung ist Teil des Kurses

<Kurs>Datenschutz und Anonymisierung mit Python</Kurs>

Übungsanweisungen

Importiere die passende Funktion aus dem Modul datasets, um Clustering-Datensätze zu generieren.
Erzeuge einen Datensatz mit 15000 Stichproben, 2 Merkmalen, 2 Zentren und einer Cluster-Standardabweichung von 3.
Gib die Form der erzeugten Daten aus.
Untersuche die resultierenden Datenpunkte in einem zweidimensionalen Streudiagramm.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import the function from the datasets module for generating clustering datasets
from sklearn.datasets import ____

# Generate a dataset with 15000 rows, 2 features, 2 centers, and a cluster std of 3
x, labels = ____

# Print the shape of the resulting generated data
print(____)

# See the resulting data points in a 2 dimensional scatter plot
plot_data_points(x, labels)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Datenschutz und Anonymisierung mit Python</Kurs>

Hohe SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Mach dich bereit, Anonymisierungstechniken wie Datenunterdrückung, Maskierung, synthetische Datengenerierung und Generalisierung anzuwenden. In diesem Kapitel lernst du, zwischen sensiblen und nicht sensiblen personenbezogenen Daten (PII), Quasi-Identifikatoren und den Grundlagen der DSGVO zu unterscheiden. Außerdem siehst du reale Beispiele dafür, was schiefgehen kann, wenn diese Best Practices nicht beachtet werden.

Exercise 1: Was ist privat – und warum ist das wichtig?Exercise 2: Privacy is power Exercise 3: Ist es sensibel oder nicht sensibel?Exercise 4: Unterdrückung sensibler Attribute Exercise 5: Datenmaskierung und Datengenerierung mit Faker Exercise 6: Maskierung sensibler PII Exercise 7: Namen mit faker entfernen Exercise 8: Anonymisieren mit Datengeneralisierung Exercise 9: Identifizierungsrisiko mit Generalisierung senken Exercise 10: Datenaggregation und Datengeneralisierung Exercise 11: Top- und Bottom-Coding für Gehälter im Weißen Haus

Entdecke, wie du Daten anonymisieren kannst, indem du aus Datensätzen gemäß der Wahrscheinlichkeitsverteilung der Spalten samplest. Anschließend lernst du, das Datenschutzmodell der k-Anonymität anzuwenden, um Linkage- oder Re-Identifizierungsangriffe zu verhindern, und Hierarchien zu nutzen, um Generalisierung bei kategorialen Variablen durchzuführen.

Exercise 1: Kategorische Daten anonymisieren Exercise 2: Untersuche die Verteilung der Daten Exercise 3: Stichproben aus derselben Wahrscheinlichkeitsverteilung ziehen Exercise 4: Kontinuierliche Daten anonymisieren Exercise 5: Unterschiedliche Verteilungen Exercise 6: Stichproben aus der besten stetigen Verteilung ziehen Exercise 7: Einführung in K-Anonymität Exercise 8: Datenschutzattribute Exercise 9: Verallgemeinerung in Intervalle Exercise 10: Daten mithilfe von Hierarchien generalisieren Exercise 11: Hierarchien für kategoriale Daten verwenden Exercise 12: Einen Datensatz k-anonymisieren

Lerne differenzielle Privatsphäre kennen – das Modell, das von großen Tech-Unternehmen wie Apple, Google und Uber verwendet wird. In diesem Kapitel untersuchst du Daten, indem du private Histogramme erzeugst und private Mittelwerte berechnest. Außerdem erstellst du differentielle Machine-Learning-Modelle, die Unternehmen dabei helfen, den Nutzen ihrer Daten zu erhöhen.

Exercise 1: Einführung in Differential Privacy Exercise 2: Epsilon (ϵ): die magische Zahl Exercise 3: Histogramme mit Differential Privacy Exercise 4: Privacy Budgets Exercise 5: Verwendung von Privacy-Budgets Exercise 6: Wenn kein Budget mehr übrig ist Exercise 7: Daten erkunden mit einem Privacy-Budget-Accountant Exercise 8: Differenziell private Machine-Learning-Modelle Exercise 9: Erstelle einen differenziell privaten Klassifizierer Exercise 10: Gehälter vorhersagen Exercise 11: Differenziell private Clustering-Modelle Exercise 12: Daten vorverarbeiten Exercise 13: Kund:innen segmentieren

In diesem letzten Kapitel lernst du, wie du Methoden zur Dimensionsreduktion wie die Hauptkomponentenanalyse (PCA) anwendest, um große Datensätze mit vielen Spalten zu anonymisieren. Anschließend nutzt du Faker, um realistische und konsistente Datensätze zu generieren, und scikit-learn, um synthetische Datensätze zu erstellen, die einer Normalverteilung folgen. Zum Schluss führst du alles aus diesem Kurs zusammen, indem du mehrere Techniken kombinierst, um Datensätze sicher der Öffentlichkeit zugänglich zu machen.

Exercise 1: PCA zur Anonymisierung Exercise 2: Anonymisierung hochdimensionaler Daten Exercise 3: Datenmaskierung mit PCA Exercise 4: Realistische Datensätze mit Faker erzeugen Exercise 5: Konsistenter synthetischer Datensatz Exercise 6: Datensätze mit derselben Wahrscheinlichkeitsverteilung Exercise 7: Synthetische Datensätze mit scikit-learn erstellen Exercise 8: Datensätze für Klassifikation generieren Exercise 9: Datensätze für Clustering erzeugen

Aktuelle Übung

Exercise 10: Datensätze sicher öffentlich veröffentlichen Exercise 11: Einen Datensatz untersuchen und pseudonymisieren Exercise 12: Mitarbeitendendaten für eine sichere Veröffentlichung vorbereiten Exercise 13: Großartige Arbeit!