Consistente synthetische gegevensset

Een situatie waarin bedrijven synthetische gegevens gebruiken, is het trainen van artificial intelligence- en Machine Learning-modellen. Data uit de echte wereld is soms duur om te verzamelen of simpelweg lastig te vinden. Wanneer de trainingsdata sterk uit balans is (bijv. meer dan 90% van de voorbeelden hoort bij één klasse), kan het genereren van synthetische data helpen om nauwkeurige Machine Learning-modellen te bouwen.

In deze oefening genereer je een gegevensset met mobiele app-beoordelingen met behulp van Faker.

De initiële DataFrame is geladen als ratings met twee kolommen: rating en gender. Een Faker()-generator is al voor je geïnitialiseerd als fake_data.

Deze oefening maakt deel uit van de cursus

Dataprivacy en anonimisering in Python

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Generate a name according to the gender that will be unique in the dataset
ratings['name'] = [____ if x == "Female" 
                   else ____
                   for x in ratings['gender']]

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Dataprivacy en anonimisering in Python

SkillTag.level.advancedSkillTag.label

4.9+

Begin gratis met de cursus

Maak je klaar om anonimiseringstechnieken toe te passen, zoals dataonderdrukking, maskeren, synthetische gegevens genereren en generalisatie. In dit hoofdstuk leer je het verschil tussen gevoelige en niet-gevoelige persoonsgegevens (PII), quasi-identifiers en de basis van de AVG. Je ziet ook praktijkvoorbeelden van wat er mis kan gaan als je deze best practices niet volgt.

Exercise 1: Wat is privé, en waarom is dat belangrijk?Exercise 2: Privacy is macht Exercise 3: Is het gevoelig of niet-gevoelig?Exercise 4: Onderdrukking van gevoelige attributen Exercise 5: Gegevensmaskering en gegevensgeneratie met Faker Exercise 6: Maskeren van gevoelige PII Exercise 7: Namen verwijderen met faker Exercise 8: Anonymiseren met gegevensgeneralisatie Exercise 9: Identificatierisico verminderen met generalisatie Exercise 10: Gegevensaggregatie en gegevensgeneralisatie Exercise 11: Top- en bottom-coding van salarissen in het Witte Huis

Ontdek hoe je data kunt anonimiseren door te sampelen uit gegevenssets volgens de kansverdeling van de kolommen. Daarna leer je het privacymodel k-anonimiteit toepassen om koppelings- of heridentificatieaanvallen te voorkomen en hiërarchieën te gebruiken om datageneralisatie uit te voeren in categorische variabelen.

Exercise 1: Categorische gegevens anonimiseren Exercise 2: Onderzoek de verdeling van gegevens Exercise 3: Steekproeven trekken uit dezelfde kansverdeling Exercise 4: Continue gegevens anonimiseren Exercise 5: Verschillende verdelingen Exercise 6: Steekproeven trekken uit de best passende continue verdeling Exercise 7: Introductie tot k-anonimiteit Exercise 8: Privacy-attributen Exercise 9: Generaliseren naar bereiken Exercise 10: Data generaliseren met behulp van hiërarchieën Exercise 11: Hiërarchieën gebruiken voor categorische data Exercise 12: K-anonimiseren van een gegevensset

Leer over differential privacy, het model dat wordt gebruikt door grote technologiebedrijven zoals Apple, Google en Uber. In dit hoofdstuk verken je data door private histogrammen te genereren en private gemiddelden in data te berekenen. Je maakt ook differentieel private Machine Learning-modellen waarmee bedrijven de bruikbaarheid van hun data kunnen vergroten.

Exercise 1: Introductie tot differential privacy Exercise 2: Epsilon (ϵ): het magische getal Exercise 3: Histogrammen met differential privacy Exercise 4: Privacybudgetten Exercise 5: Privacybudgetten gebruiken Exercise 6: Wanneer er geen budget meer is Exercise 7: Data verkennen met een privacybudget-accountant Exercise 8: Differentiële private Machine Learning-modellen Exercise 9: Bouw een differentieel privéklaasificador Exercise 10: Salarissen voorspellen Exercise 11: Differentiële private clusteringmodellen Exercise 12: Preprocessing van data Exercise 13: Klanten segmenteren

In dit laatste hoofdstuk leer je hoe je methoden voor dimensiereductie, zoals principal component analysis (PCA), toepast om grote gegevenssets met meerdere kolommen te anonimiseren. Vervolgens gebruik je Faker om realistische en consistente gegevenssets te genereren, en scikit-learn om synthetische gegevenssets te maken die een normale verdeling volgen. Tot slot breng je alles wat je in deze cursus hebt geleerd samen door meerdere technieken te combineren om gegevenssets veilig openbaar te maken.

Exercise 1: PCA voor anonimisering Exercise 2: Anonimiseren van hoog-dimensionale data Exercise 3: Datamasking met PCA Exercise 4: Realistische gegevenssets genereren met Faker Exercise 5: Consistente synthetische gegevensset

Huidige oefening

Exercise 6: Gegevenssets met dezelfde probabilistische verdeling Exercise 7: Synthetische gegevenssets maken met scikit-learn Exercise 8: Gegevenssets genereren voor classificatie Exercise 9: Gegevenssets genereren voor clustering Exercise 10: Gegevenssets veilig openbaar maken Exercise 11: Een gegevensset verkennen en pseudonimiseren Exercise 12: Werknemersdata voorbereiden voor veilige publicatie Exercise 13: Goed gedaan!