Generaliseren naar bereiken

K-anonymity kan een goed privacymodel zijn voor specifieke gegevenssets met niet al te veel dimensies. De twee belangrijkste anonimiseringstechnieken om een gegevensset om te zetten naar een k-anonieme tabel zijn generalisatie en suppressie.

In deze oefening zet je een gegevensset met tevredenheidscores om naar een 3-anonieme tabel met mogelijke gevoelige kenmerken zoals satisfaction_rate en work_hours. Sommige combinaties komen minder dan drie keer voor. Los dat op zodat de DataFrame 3-anoniem is.

De DataFrame is beschikbaar als employees. Een k-waarde van 3 is ook beschikbaar.

Deze oefening maakt deel uit van de cursus

Dataprivacy en anonimisering in Python

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Calculate how many unique combinations are for BirthYear and Department
print(employees.groupby(['birth_year','department']).____)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Dataprivacy en anonimisering in Python

SkillTag.level.advancedSkillTag.label

4.9+

Begin gratis met de cursus

Maak je klaar om anonimiseringstechnieken toe te passen, zoals dataonderdrukking, maskeren, synthetische gegevens genereren en generalisatie. In dit hoofdstuk leer je het verschil tussen gevoelige en niet-gevoelige persoonsgegevens (PII), quasi-identifiers en de basis van de AVG. Je ziet ook praktijkvoorbeelden van wat er mis kan gaan als je deze best practices niet volgt.

Exercise 1: Wat is privé, en waarom is dat belangrijk?Exercise 2: Privacy is macht Exercise 3: Is het gevoelig of niet-gevoelig?Exercise 4: Onderdrukking van gevoelige attributen Exercise 5: Gegevensmaskering en gegevensgeneratie met Faker Exercise 6: Maskeren van gevoelige PII Exercise 7: Namen verwijderen met faker Exercise 8: Anonymiseren met gegevensgeneralisatie Exercise 9: Identificatierisico verminderen met generalisatie Exercise 10: Gegevensaggregatie en gegevensgeneralisatie Exercise 11: Top- en bottom-coding van salarissen in het Witte Huis

Ontdek hoe je data kunt anonimiseren door te sampelen uit gegevenssets volgens de kansverdeling van de kolommen. Daarna leer je het privacymodel k-anonimiteit toepassen om koppelings- of heridentificatieaanvallen te voorkomen en hiërarchieën te gebruiken om datageneralisatie uit te voeren in categorische variabelen.

Exercise 1: Categorische gegevens anonimiseren Exercise 2: Onderzoek de verdeling van gegevens Exercise 3: Steekproeven trekken uit dezelfde kansverdeling Exercise 4: Continue gegevens anonimiseren Exercise 5: Verschillende verdelingen Exercise 6: Steekproeven trekken uit de best passende continue verdeling Exercise 7: Introductie tot k-anonimiteit Exercise 8: Privacy-attributen Exercise 9: Generaliseren naar bereiken

Huidige oefening

Exercise 10: Data generaliseren met behulp van hiërarchieën Exercise 11: Hiërarchieën gebruiken voor categorische data Exercise 12: K-anonimiseren van een gegevensset

Leer over differential privacy, het model dat wordt gebruikt door grote technologiebedrijven zoals Apple, Google en Uber. In dit hoofdstuk verken je data door private histogrammen te genereren en private gemiddelden in data te berekenen. Je maakt ook differentieel private Machine Learning-modellen waarmee bedrijven de bruikbaarheid van hun data kunnen vergroten.

Exercise 1: Introductie tot differential privacy Exercise 2: Epsilon (ϵ): het magische getal Exercise 3: Histogrammen met differential privacy Exercise 4: Privacybudgetten Exercise 5: Privacybudgetten gebruiken Exercise 6: Wanneer er geen budget meer is Exercise 7: Data verkennen met een privacybudget-accountant Exercise 8: Differentiële private Machine Learning-modellen Exercise 9: Bouw een differentieel privéklaasificador Exercise 10: Salarissen voorspellen Exercise 11: Differentiële private clusteringmodellen Exercise 12: Preprocessing van data Exercise 13: Klanten segmenteren

In dit laatste hoofdstuk leer je hoe je methoden voor dimensiereductie, zoals principal component analysis (PCA), toepast om grote gegevenssets met meerdere kolommen te anonimiseren. Vervolgens gebruik je Faker om realistische en consistente gegevenssets te genereren, en scikit-learn om synthetische gegevenssets te maken die een normale verdeling volgen. Tot slot breng je alles wat je in deze cursus hebt geleerd samen door meerdere technieken te combineren om gegevenssets veilig openbaar te maken.

Exercise 1: PCA voor anonimisering Exercise 2: Anonimiseren van hoog-dimensionale data Exercise 3: Datamasking met PCA Exercise 4: Realistische gegevenssets genereren met Faker Exercise 5: Consistente synthetische gegevensset Exercise 6: Gegevenssets met dezelfde probabilistische verdeling Exercise 7: Synthetische gegevenssets maken met scikit-learn Exercise 8: Gegevenssets genereren voor classificatie Exercise 9: Gegevenssets genereren voor clustering Exercise 10: Gegevenssets veilig openbaar maken Exercise 11: Een gegevensset verkennen en pseudonimiseren Exercise 12: Werknemersdata voorbereiden voor veilige publicatie Exercise 13: Goed gedaan!