Klanten segmenteren

In deze oefening voer je een klantensegmentatie uit op de Mall Customer Segmentation Dataset met een differentieel privé-clusteringmodel.

Bij K-means-clustering kun je het optimale aantal clusters bepalen met de elbow-methode.

Resulterende grafiek van de elbow-methode met niet-privémodel

Uit de resulterende grafiek blijkt dat het optimale aantal clusters 5 is. Je clustert op basis van Annual Income en Spending Score, die zijn geladen als X, en je plot de resulterende clusters.

De volledige gegevensset is geladen als mall_df. Voor het gemak is een aangepaste functie show_clusters() meegeleverd om de clusters te plotten. Gebruik ?show_clusters om er meer over te leren.

Deze oefening maakt deel uit van de cursus

Dataprivacy en anonimisering in Python

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Build the differentially private K-means model
model = ____

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Dataprivacy en anonimisering in Python

SkillTag.level.advancedSkillTag.label

4.9+

Begin gratis met de cursus

Maak je klaar om anonimiseringstechnieken toe te passen, zoals dataonderdrukking, maskeren, synthetische gegevens genereren en generalisatie. In dit hoofdstuk leer je het verschil tussen gevoelige en niet-gevoelige persoonsgegevens (PII), quasi-identifiers en de basis van de AVG. Je ziet ook praktijkvoorbeelden van wat er mis kan gaan als je deze best practices niet volgt.

Exercise 1: Wat is privé, en waarom is dat belangrijk?Exercise 2: Privacy is macht Exercise 3: Is het gevoelig of niet-gevoelig?Exercise 4: Onderdrukking van gevoelige attributen Exercise 5: Gegevensmaskering en gegevensgeneratie met Faker Exercise 6: Maskeren van gevoelige PII Exercise 7: Namen verwijderen met faker Exercise 8: Anonymiseren met gegevensgeneralisatie Exercise 9: Identificatierisico verminderen met generalisatie Exercise 10: Gegevensaggregatie en gegevensgeneralisatie Exercise 11: Top- en bottom-coding van salarissen in het Witte Huis

Ontdek hoe je data kunt anonimiseren door te sampelen uit gegevenssets volgens de kansverdeling van de kolommen. Daarna leer je het privacymodel k-anonimiteit toepassen om koppelings- of heridentificatieaanvallen te voorkomen en hiërarchieën te gebruiken om datageneralisatie uit te voeren in categorische variabelen.

Exercise 1: Categorische gegevens anonimiseren Exercise 2: Onderzoek de verdeling van gegevens Exercise 3: Steekproeven trekken uit dezelfde kansverdeling Exercise 4: Continue gegevens anonimiseren Exercise 5: Verschillende verdelingen Exercise 6: Steekproeven trekken uit de best passende continue verdeling Exercise 7: Introductie tot k-anonimiteit Exercise 8: Privacy-attributen Exercise 9: Generaliseren naar bereiken Exercise 10: Data generaliseren met behulp van hiërarchieën Exercise 11: Hiërarchieën gebruiken voor categorische data Exercise 12: K-anonimiseren van een gegevensset

Leer over differential privacy, het model dat wordt gebruikt door grote technologiebedrijven zoals Apple, Google en Uber. In dit hoofdstuk verken je data door private histogrammen te genereren en private gemiddelden in data te berekenen. Je maakt ook differentieel private Machine Learning-modellen waarmee bedrijven de bruikbaarheid van hun data kunnen vergroten.

Exercise 1: Introductie tot differential privacy Exercise 2: Epsilon (ϵ): het magische getal Exercise 3: Histogrammen met differential privacy Exercise 4: Privacybudgetten Exercise 5: Privacybudgetten gebruiken Exercise 6: Wanneer er geen budget meer is Exercise 7: Data verkennen met een privacybudget-accountant Exercise 8: Differentiële private Machine Learning-modellen Exercise 9: Bouw een differentieel privéklaasificador Exercise 10: Salarissen voorspellen Exercise 11: Differentiële private clusteringmodellen Exercise 12: Preprocessing van data Exercise 13: Klanten segmenteren

Huidige oefening

In dit laatste hoofdstuk leer je hoe je methoden voor dimensiereductie, zoals principal component analysis (PCA), toepast om grote gegevenssets met meerdere kolommen te anonimiseren. Vervolgens gebruik je Faker om realistische en consistente gegevenssets te genereren, en scikit-learn om synthetische gegevenssets te maken die een normale verdeling volgen. Tot slot breng je alles wat je in deze cursus hebt geleerd samen door meerdere technieken te combineren om gegevenssets veilig openbaar te maken.

Exercise 1: PCA voor anonimisering Exercise 2: Anonimiseren van hoog-dimensionale data Exercise 3: Datamasking met PCA Exercise 4: Realistische gegevenssets genereren met Faker Exercise 5: Consistente synthetische gegevensset Exercise 6: Gegevenssets met dezelfde probabilistische verdeling Exercise 7: Synthetische gegevenssets maken met scikit-learn Exercise 8: Gegevenssets genereren voor classificatie Exercise 9: Gegevenssets genereren voor clustering Exercise 10: Gegevenssets veilig openbaar maken Exercise 11: Een gegevensset verkennen en pseudonimiseren Exercise 12: Werknemersdata voorbereiden voor veilige publicatie Exercise 13: Goed gedaan!