Mitarbeitendendaten für eine sichere Veröffentlichung vorbereiten

Wenn du mit echten Daten arbeitest, musst du sicherstellen, dass keine personenbezogenen Informationen unserer Kundschaft oder anderer Personen zurückverfolgt oder offengelegt werden können. In dieser Übung verwendest du eine vereinfachte Version des IBM HR Analytics Employee Datensatzes, um Unterdrückungs- und Generalisierungstechniken zu üben.

Um das Leaken von Informationen über den Datensatz zu vermeiden, ersetzt du die Spaltennamen durch Zahlen.

Das DataFrame ist als hr geladen, nutze die Konsole, um es zu erkunden. numpy ist als np importiert.

Diese Übung ist Teil des Kurses

Datenschutz und Anonymisierung mit Python

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Drop unique data and almost unique data
df_dropped = ____(["employee_number", "monthly_income", "monthly_rate", "daily_rate"], axis=1) 

# Drop the rows with NaN values
df_cleaned = ____

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Datenschutz und Anonymisierung mit Python

Hohe SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Mach dich bereit, Anonymisierungstechniken wie Datenunterdrückung, Maskierung, synthetische Datengenerierung und Generalisierung anzuwenden. In diesem Kapitel lernst du, zwischen sensiblen und nicht sensiblen personenbezogenen Daten (PII), Quasi-Identifikatoren und den Grundlagen der DSGVO zu unterscheiden. Außerdem siehst du reale Beispiele dafür, was schiefgehen kann, wenn diese Best Practices nicht beachtet werden.

Exercise 1: Was ist privat – und warum ist das wichtig?Exercise 2: Privacy is power Exercise 3: Ist es sensibel oder nicht sensibel?Exercise 4: Unterdrückung sensibler Attribute Exercise 5: Datenmaskierung und Datengenerierung mit Faker Exercise 6: Maskierung sensibler PII Exercise 7: Namen mit faker entfernen Exercise 8: Anonymisieren mit Datengeneralisierung Exercise 9: Identifizierungsrisiko mit Generalisierung senken Exercise 10: Datenaggregation und Datengeneralisierung Exercise 11: Top- und Bottom-Coding für Gehälter im Weißen Haus

Entdecke, wie du Daten anonymisieren kannst, indem du aus Datensätzen gemäß der Wahrscheinlichkeitsverteilung der Spalten samplest. Anschließend lernst du, das Datenschutzmodell der k-Anonymität anzuwenden, um Linkage- oder Re-Identifizierungsangriffe zu verhindern, und Hierarchien zu nutzen, um Generalisierung bei kategorialen Variablen durchzuführen.

Exercise 1: Kategorische Daten anonymisieren Exercise 2: Untersuche die Verteilung der Daten Exercise 3: Stichproben aus derselben Wahrscheinlichkeitsverteilung ziehen Exercise 4: Kontinuierliche Daten anonymisieren Exercise 5: Unterschiedliche Verteilungen Exercise 6: Stichproben aus der besten stetigen Verteilung ziehen Exercise 7: Einführung in K-Anonymität Exercise 8: Datenschutzattribute Exercise 9: Verallgemeinerung in Intervalle Exercise 10: Daten mithilfe von Hierarchien generalisieren Exercise 11: Hierarchien für kategoriale Daten verwenden Exercise 12: Einen Datensatz k-anonymisieren

Lerne differenzielle Privatsphäre kennen – das Modell, das von großen Tech-Unternehmen wie Apple, Google und Uber verwendet wird. In diesem Kapitel untersuchst du Daten, indem du private Histogramme erzeugst und private Mittelwerte berechnest. Außerdem erstellst du differentielle Machine-Learning-Modelle, die Unternehmen dabei helfen, den Nutzen ihrer Daten zu erhöhen.

Exercise 1: Einführung in Differential Privacy Exercise 2: Epsilon (ϵ): die magische Zahl Exercise 3: Histogramme mit Differential Privacy Exercise 4: Privacy Budgets Exercise 5: Verwendung von Privacy-Budgets Exercise 6: Wenn kein Budget mehr übrig ist Exercise 7: Daten erkunden mit einem Privacy-Budget-Accountant Exercise 8: Differenziell private Machine-Learning-Modelle Exercise 9: Erstelle einen differenziell privaten Klassifizierer Exercise 10: Gehälter vorhersagen Exercise 11: Differenziell private Clustering-Modelle Exercise 12: Daten vorverarbeiten Exercise 13: Kund:innen segmentieren

In diesem letzten Kapitel lernst du, wie du Methoden zur Dimensionsreduktion wie die Hauptkomponentenanalyse (PCA) anwendest, um große Datensätze mit vielen Spalten zu anonymisieren. Anschließend nutzt du Faker, um realistische und konsistente Datensätze zu generieren, und scikit-learn, um synthetische Datensätze zu erstellen, die einer Normalverteilung folgen. Zum Schluss führst du alles aus diesem Kurs zusammen, indem du mehrere Techniken kombinierst, um Datensätze sicher der Öffentlichkeit zugänglich zu machen.

Exercise 1: PCA zur Anonymisierung Exercise 2: Anonymisierung hochdimensionaler Daten Exercise 3: Datenmaskierung mit PCA Exercise 4: Realistische Datensätze mit Faker erzeugen Exercise 5: Konsistenter synthetischer Datensatz Exercise 6: Datensätze mit derselben Wahrscheinlichkeitsverteilung Exercise 7: Synthetische Datensätze mit scikit-learn erstellen Exercise 8: Datensätze für Klassifikation generieren Exercise 9: Datensätze für Clustering erzeugen Exercise 10: Datensätze sicher öffentlich veröffentlichen Exercise 11: Einen Datensatz untersuchen und pseudonymisieren Exercise 12: Mitarbeitendendaten für eine sichere Veröffentlichung vorbereiten

Aktuelle Übung

Exercise 13: Großartige Arbeit!