Salarissen voorspellen

In deze oefening gebruik je de census-inkomensgegevens om te voorspellen of iemand meer dan $50K/jaar verdient of niet.

Vergeet niet dat je bij het maken van het private model de grenzen als parameter moet opgeven, zodat er geen extra privacyverlies of informatielek optreedt. Meestal kun je de grenzen onafhankelijk van de data kiezen, op basis van domeinkennis of door te zoeken met een DP-histogram.

De gegevensset is geladen en opgesplitst in X_train, y_train, X_test en y_test. De classifier is beschikbaar als dp_GaussianNB.

Deze oefening maakt deel uit van de cursus

Dataprivacy en anonimisering in Python

Oefeninstructies

Stel de grenzen van het model in door de min- en max-waarden in de trainingsdata te berekenen en willekeurige ruis toe te voegen door respectievelijk willekeurige getallen in het bereik 5 tot 40 af te trekken en op te tellen voor de 5 kolommen in onze data.
Maak een dp_GaussianNB-classifier met een epsilon van 0.5 en de zojuist bepaalde grenzen.
Fit het model op de data en bekijk de score.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Set the min and max of bounds for the data and add noise using random
bounds = (X_train.____(axis=0) - random.____(range(5, 40), 5), 
          ____)

# Built the classifier with epsilon of 0.5
dp_clf = ____(epsilon=____, bounds=____)

# Fit the model to the data and print the score
____
print("The accuracy of the differentially private model is ",
       dp_clf.score(X_test, y_test))

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Dataprivacy en anonimisering in Python

SkillTag.level.advancedSkillTag.label

4.9+

Begin gratis met de cursus

Maak je klaar om anonimiseringstechnieken toe te passen, zoals dataonderdrukking, maskeren, synthetische gegevens genereren en generalisatie. In dit hoofdstuk leer je het verschil tussen gevoelige en niet-gevoelige persoonsgegevens (PII), quasi-identifiers en de basis van de AVG. Je ziet ook praktijkvoorbeelden van wat er mis kan gaan als je deze best practices niet volgt.

Exercise 1: Wat is privé, en waarom is dat belangrijk?Exercise 2: Privacy is macht Exercise 3: Is het gevoelig of niet-gevoelig?Exercise 4: Onderdrukking van gevoelige attributen Exercise 5: Gegevensmaskering en gegevensgeneratie met Faker Exercise 6: Maskeren van gevoelige PII Exercise 7: Namen verwijderen met faker Exercise 8: Anonymiseren met gegevensgeneralisatie Exercise 9: Identificatierisico verminderen met generalisatie Exercise 10: Gegevensaggregatie en gegevensgeneralisatie Exercise 11: Top- en bottom-coding van salarissen in het Witte Huis

Ontdek hoe je data kunt anonimiseren door te sampelen uit gegevenssets volgens de kansverdeling van de kolommen. Daarna leer je het privacymodel k-anonimiteit toepassen om koppelings- of heridentificatieaanvallen te voorkomen en hiërarchieën te gebruiken om datageneralisatie uit te voeren in categorische variabelen.

Exercise 1: Categorische gegevens anonimiseren Exercise 2: Onderzoek de verdeling van gegevens Exercise 3: Steekproeven trekken uit dezelfde kansverdeling Exercise 4: Continue gegevens anonimiseren Exercise 5: Verschillende verdelingen Exercise 6: Steekproeven trekken uit de best passende continue verdeling Exercise 7: Introductie tot k-anonimiteit Exercise 8: Privacy-attributen Exercise 9: Generaliseren naar bereiken Exercise 10: Data generaliseren met behulp van hiërarchieën Exercise 11: Hiërarchieën gebruiken voor categorische data Exercise 12: K-anonimiseren van een gegevensset

Leer over differential privacy, het model dat wordt gebruikt door grote technologiebedrijven zoals Apple, Google en Uber. In dit hoofdstuk verken je data door private histogrammen te genereren en private gemiddelden in data te berekenen. Je maakt ook differentieel private Machine Learning-modellen waarmee bedrijven de bruikbaarheid van hun data kunnen vergroten.

Exercise 1: Introductie tot differential privacy Exercise 2: Epsilon (ϵ): het magische getal Exercise 3: Histogrammen met differential privacy Exercise 4: Privacybudgetten Exercise 5: Privacybudgetten gebruiken Exercise 6: Wanneer er geen budget meer is Exercise 7: Data verkennen met een privacybudget-accountant Exercise 8: Differentiële private Machine Learning-modellen Exercise 9: Bouw een differentieel privéklaasificador Exercise 10: Salarissen voorspellen

Huidige oefening

Exercise 11: Differentiële private clusteringmodellen Exercise 12: Preprocessing van data Exercise 13: Klanten segmenteren

In dit laatste hoofdstuk leer je hoe je methoden voor dimensiereductie, zoals principal component analysis (PCA), toepast om grote gegevenssets met meerdere kolommen te anonimiseren. Vervolgens gebruik je Faker om realistische en consistente gegevenssets te genereren, en scikit-learn om synthetische gegevenssets te maken die een normale verdeling volgen. Tot slot breng je alles wat je in deze cursus hebt geleerd samen door meerdere technieken te combineren om gegevenssets veilig openbaar te maken.

Exercise 1: PCA voor anonimisering Exercise 2: Anonimiseren van hoog-dimensionale data Exercise 3: Datamasking met PCA Exercise 4: Realistische gegevenssets genereren met Faker Exercise 5: Consistente synthetische gegevensset Exercise 6: Gegevenssets met dezelfde probabilistische verdeling Exercise 7: Synthetische gegevenssets maken met scikit-learn Exercise 8: Gegevenssets genereren voor classificatie Exercise 9: Gegevenssets genereren voor clustering Exercise 10: Gegevenssets veilig openbaar maken Exercise 11: Een gegevensset verkennen en pseudonimiseren Exercise 12: Werknemersdata voorbereiden voor veilige publicatie Exercise 13: Goed gedaan!