Einen Datensatz k-anonymisieren

In dieser Übung anonymisierst du den Datensatz NBA Salaries. Denk daran: Um k-Anonymität anzuwenden, musst du Attributtypen angeben. Diese können identifizierend, quasi-identifizierend, sensibel oder unsensibel sein. Wir konzentrieren uns darauf, age und nba_origin als quasi-identifizierend und salary als sensible Daten zu behandeln.

Erkunde nba. Wenn du etwas über eine/n Spieler/in weißt, zum Beispiel dass er/sie aus Spanien kommt und 23 ist, kannst du sensible Informationen wie sein/ihr Gehalt herausfinden! Hier verwenden wir einen K-Wert von 3, sodass die ausgewählten Attribute nicht von mindestens k-1 anderen Zeilen unterscheidbar sind.

Das Hierarchie-Dictionary für nba_Origin wurde bereits als origin_hierarchy erstellt.

Diese Übung ist Teil des Kurses

Datenschutz und Anonymisierung mit Python

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Print how many unique combinations are for age and nba_origin
print(____)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Datenschutz und Anonymisierung mit Python

Hohe SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Mach dich bereit, Anonymisierungstechniken wie Datenunterdrückung, Maskierung, synthetische Datengenerierung und Generalisierung anzuwenden. In diesem Kapitel lernst du, zwischen sensiblen und nicht sensiblen personenbezogenen Daten (PII), Quasi-Identifikatoren und den Grundlagen der DSGVO zu unterscheiden. Außerdem siehst du reale Beispiele dafür, was schiefgehen kann, wenn diese Best Practices nicht beachtet werden.

Exercise 1: Was ist privat – und warum ist das wichtig?Exercise 2: Privacy is power Exercise 3: Ist es sensibel oder nicht sensibel?Exercise 4: Unterdrückung sensibler Attribute Exercise 5: Datenmaskierung und Datengenerierung mit Faker Exercise 6: Maskierung sensibler PII Exercise 7: Namen mit faker entfernen Exercise 8: Anonymisieren mit Datengeneralisierung Exercise 9: Identifizierungsrisiko mit Generalisierung senken Exercise 10: Datenaggregation und Datengeneralisierung Exercise 11: Top- und Bottom-Coding für Gehälter im Weißen Haus

Entdecke, wie du Daten anonymisieren kannst, indem du aus Datensätzen gemäß der Wahrscheinlichkeitsverteilung der Spalten samplest. Anschließend lernst du, das Datenschutzmodell der k-Anonymität anzuwenden, um Linkage- oder Re-Identifizierungsangriffe zu verhindern, und Hierarchien zu nutzen, um Generalisierung bei kategorialen Variablen durchzuführen.

Exercise 1: Kategorische Daten anonymisieren Exercise 2: Untersuche die Verteilung der Daten Exercise 3: Stichproben aus derselben Wahrscheinlichkeitsverteilung ziehen Exercise 4: Kontinuierliche Daten anonymisieren Exercise 5: Unterschiedliche Verteilungen Exercise 6: Stichproben aus der besten stetigen Verteilung ziehen Exercise 7: Einführung in K-Anonymität Exercise 8: Datenschutzattribute Exercise 9: Verallgemeinerung in Intervalle Exercise 10: Daten mithilfe von Hierarchien generalisieren Exercise 11: Hierarchien für kategoriale Daten verwenden Exercise 12: Einen Datensatz k-anonymisieren

Aktuelle Übung

Lerne differenzielle Privatsphäre kennen – das Modell, das von großen Tech-Unternehmen wie Apple, Google und Uber verwendet wird. In diesem Kapitel untersuchst du Daten, indem du private Histogramme erzeugst und private Mittelwerte berechnest. Außerdem erstellst du differentielle Machine-Learning-Modelle, die Unternehmen dabei helfen, den Nutzen ihrer Daten zu erhöhen.

Exercise 1: Einführung in Differential Privacy Exercise 2: Epsilon (ϵ): die magische Zahl Exercise 3: Histogramme mit Differential Privacy Exercise 4: Privacy Budgets Exercise 5: Verwendung von Privacy-Budgets Exercise 6: Wenn kein Budget mehr übrig ist Exercise 7: Daten erkunden mit einem Privacy-Budget-Accountant Exercise 8: Differenziell private Machine-Learning-Modelle Exercise 9: Erstelle einen differenziell privaten Klassifizierer Exercise 10: Gehälter vorhersagen Exercise 11: Differenziell private Clustering-Modelle Exercise 12: Daten vorverarbeiten Exercise 13: Kund:innen segmentieren

In diesem letzten Kapitel lernst du, wie du Methoden zur Dimensionsreduktion wie die Hauptkomponentenanalyse (PCA) anwendest, um große Datensätze mit vielen Spalten zu anonymisieren. Anschließend nutzt du Faker, um realistische und konsistente Datensätze zu generieren, und scikit-learn, um synthetische Datensätze zu erstellen, die einer Normalverteilung folgen. Zum Schluss führst du alles aus diesem Kurs zusammen, indem du mehrere Techniken kombinierst, um Datensätze sicher der Öffentlichkeit zugänglich zu machen.

Exercise 1: PCA zur Anonymisierung Exercise 2: Anonymisierung hochdimensionaler Daten Exercise 3: Datenmaskierung mit PCA Exercise 4: Realistische Datensätze mit Faker erzeugen Exercise 5: Konsistenter synthetischer Datensatz Exercise 6: Datensätze mit derselben Wahrscheinlichkeitsverteilung Exercise 7: Synthetische Datensätze mit scikit-learn erstellen Exercise 8: Datensätze für Klassifikation generieren Exercise 9: Datensätze für Clustering erzeugen Exercise 10: Datensätze sicher öffentlich veröffentlichen Exercise 11: Einen Datensatz untersuchen und pseudonymisieren Exercise 12: Mitarbeitendendaten für eine sichere Veröffentlichung vorbereiten Exercise 13: Großartige Arbeit!