Steekproeven trekken uit de best passende continue verdeling

Willekeurig steekproeven trekken uit een goed passende kansverdeling helpt de privacy te behouden. Tegelijkertijd kunnen bevoegde partijen zo een nauwkeurige statistische analyse van de data uitvoeren.

In deze oefening ga je de kolom monthly_income uit de IBM-gegevensset anonimiseren. In de vorige les heb je bepaald dat de continue verdeling exponnorm het beste past. Gebruik die om de inkomens te modelleren.

De gegevensset is beschikbaar als hr.

Deze oefening maakt deel uit van de cursus

Dataprivacy en anonimisering in Python

Oefeninstructies

Importeer de module stats uit het pakket scipy.
Pas de exponnorm-verdeling op de continue variabele monthly_income toe om de parameters van de verdeling te verkrijgen en later de steekproeven te genereren.
Trek steekproeven uit de exponnorm-verdeling en vervang monthly_income met de .rvs()-methode. Stel de size in op dezelfde waarde als de lengte van de kolom.
Rond de salarissen af op het dichtstbijzijnde gehele getal.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import stats from scipy
____

# Fit the exponnorm distribution to the continuous variable monthly income
params = ____

# Sample from the exponnorm distribution and replace monthly income
hr['monthly_income'] = ____

# Round the salaries to their closest integer
hr['monthly_income'] = ____

# See the resulting dataset
print(hr.head())

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Dataprivacy en anonimisering in Python

SkillTag.level.advancedSkillTag.label

4.9+

Begin gratis met de cursus

Maak je klaar om anonimiseringstechnieken toe te passen, zoals dataonderdrukking, maskeren, synthetische gegevens genereren en generalisatie. In dit hoofdstuk leer je het verschil tussen gevoelige en niet-gevoelige persoonsgegevens (PII), quasi-identifiers en de basis van de AVG. Je ziet ook praktijkvoorbeelden van wat er mis kan gaan als je deze best practices niet volgt.

Exercise 1: Wat is privé, en waarom is dat belangrijk?Exercise 2: Privacy is macht Exercise 3: Is het gevoelig of niet-gevoelig?Exercise 4: Onderdrukking van gevoelige attributen Exercise 5: Gegevensmaskering en gegevensgeneratie met Faker Exercise 6: Maskeren van gevoelige PII Exercise 7: Namen verwijderen met faker Exercise 8: Anonymiseren met gegevensgeneralisatie Exercise 9: Identificatierisico verminderen met generalisatie Exercise 10: Gegevensaggregatie en gegevensgeneralisatie Exercise 11: Top- en bottom-coding van salarissen in het Witte Huis

Ontdek hoe je data kunt anonimiseren door te sampelen uit gegevenssets volgens de kansverdeling van de kolommen. Daarna leer je het privacymodel k-anonimiteit toepassen om koppelings- of heridentificatieaanvallen te voorkomen en hiërarchieën te gebruiken om datageneralisatie uit te voeren in categorische variabelen.

Exercise 1: Categorische gegevens anonimiseren Exercise 2: Onderzoek de verdeling van gegevens Exercise 3: Steekproeven trekken uit dezelfde kansverdeling Exercise 4: Continue gegevens anonimiseren Exercise 5: Verschillende verdelingen Exercise 6: Steekproeven trekken uit de best passende continue verdeling

Huidige oefening

Exercise 7: Introductie tot k-anonimiteit Exercise 8: Privacy-attributen Exercise 9: Generaliseren naar bereiken Exercise 10: Data generaliseren met behulp van hiërarchieën Exercise 11: Hiërarchieën gebruiken voor categorische data Exercise 12: K-anonimiseren van een gegevensset

Leer over differential privacy, het model dat wordt gebruikt door grote technologiebedrijven zoals Apple, Google en Uber. In dit hoofdstuk verken je data door private histogrammen te genereren en private gemiddelden in data te berekenen. Je maakt ook differentieel private Machine Learning-modellen waarmee bedrijven de bruikbaarheid van hun data kunnen vergroten.

Exercise 1: Introductie tot differential privacy Exercise 2: Epsilon (ϵ): het magische getal Exercise 3: Histogrammen met differential privacy Exercise 4: Privacybudgetten Exercise 5: Privacybudgetten gebruiken Exercise 6: Wanneer er geen budget meer is Exercise 7: Data verkennen met een privacybudget-accountant Exercise 8: Differentiële private Machine Learning-modellen Exercise 9: Bouw een differentieel privéklaasificador Exercise 10: Salarissen voorspellen Exercise 11: Differentiële private clusteringmodellen Exercise 12: Preprocessing van data Exercise 13: Klanten segmenteren

In dit laatste hoofdstuk leer je hoe je methoden voor dimensiereductie, zoals principal component analysis (PCA), toepast om grote gegevenssets met meerdere kolommen te anonimiseren. Vervolgens gebruik je Faker om realistische en consistente gegevenssets te genereren, en scikit-learn om synthetische gegevenssets te maken die een normale verdeling volgen. Tot slot breng je alles wat je in deze cursus hebt geleerd samen door meerdere technieken te combineren om gegevenssets veilig openbaar te maken.

Exercise 1: PCA voor anonimisering Exercise 2: Anonimiseren van hoog-dimensionale data Exercise 3: Datamasking met PCA Exercise 4: Realistische gegevenssets genereren met Faker Exercise 5: Consistente synthetische gegevensset Exercise 6: Gegevenssets met dezelfde probabilistische verdeling Exercise 7: Synthetische gegevenssets maken met scikit-learn Exercise 8: Gegevenssets genereren voor classificatie Exercise 9: Gegevenssets genereren voor clustering Exercise 10: Gegevenssets veilig openbaar maken Exercise 11: Een gegevensset verkennen en pseudonimiseren Exercise 12: Werknemersdata voorbereiden voor veilige publicatie Exercise 13: Goed gedaan!