Échantillonner à partir de la meilleure distribution continue

L’échantillonnage aléatoire à partir d’une distribution de probabilité bien ajustée aide à préserver la confidentialité. En parallèle, il permet aux parties autorisées de mener une analyse statistique fiable des données.

Dans cet exercice, vous allez anonymiser la colonne monthly_income du jeu de données d’IBM. Dans la leçon précédente, vous avez déterminé que la distribution continue exponnorm était la mieux adaptée. Utilisez-la pour modéliser les revenus.

Le jeu de données est disponible sous le nom hr.

Cet exercice fait partie du cours

Confidentialité des données et anonymisation en Python

Afficher le cours

Instructions

Importez le module stats du package scipy.
Ajustez la distribution exponnorm à la variable continue monthly_income pour obtenir les paramètres de la distribution et générer ensuite les échantillons.
Échantillonnez à partir de la distribution exponnorm et remplacez monthly_income en utilisant la méthode .rvs(). Spécifiez une taille identique à la longueur de la colonne.
Arrondissez les salaires à l’entier le plus proche.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import stats from scipy
____

# Fit the exponnorm distribution to the continuous variable monthly income
params = ____

# Sample from the exponnorm distribution and replace monthly income
hr['monthly_income'] = ____

# Round the salaries to their closest integer
hr['monthly_income'] = ____

# See the resulting dataset
print(hr.head())

Modifier et exécuter le code

Cet exercice fait partie du cours

Confidentialité des données et anonymisation en Python

AvancéNiveau de compétence

4.9+

Commencer le cours gratuitement

Préparez-vous à appliquer des techniques d’anonymisation comme la suppression de données, le masquage, la génération de données synthétiques et la généralisation. Dans ce chapitre, vous apprendrez à distinguer les informations personnellement identifiables (PII) sensibles et non sensibles, les quasi-identifiants, ainsi que les bases du RGPD. Vous verrez aussi des exemples concrets de ce qui peut mal tourner si ces bonnes pratiques ne sont pas respectées.

Exercise 1: Qu’est-ce qui est privé, et pourquoi est-ce important ?Exercise 2: La vie privée, c’est le pouvoir Exercise 3: Est-ce sensible ou non sensible ?Exercise 4: Suppression d’attributs sensibles Exercise 5: Masquage des données et génération de données avec Faker Exercise 6: Masquage des PII sensibles Exercise 7: Supprimer les noms avec faker Exercise 8: Anonymiser avec la généralisation des données Exercise 9: Réduire le risque de ré-identification grâce à la généralisation Exercise 10: Agrégation de données et généralisation de données Exercise 11: Top- et bottom-coding des salaires de la Maison-Blanche

Découvrez comment anonymiser des données en échantillonnant des jeux de données selon la distribution de probabilité des colonnes. Vous apprendrez ensuite à appliquer le modèle de confidentialité k-anonymat pour prévenir les attaques de recoupement ou de réidentification, et à utiliser des hiérarchies pour généraliser des variables catégorielles.

Exercise 1: Anonymiser des données catégorielles Exercise 2: Explorer la distribution des données Exercise 3: Échantillonnage à partir de la même distribution de probabilité Exercise 4: Anonymiser des données continues Exercise 5: Différentes distributions Exercise 6: Échantillonner à partir de la meilleure distribution continue

Exercice en cours

Exercise 7: Introduction à la k-anonymat Exercise 8: Attributs de confidentialité Exercise 9: Généraliser en intervalles Exercise 10: Généraliser les données à l’aide de hiérarchies Exercise 11: Utiliser des hiérarchies pour des données catégorielles Exercise 12: K-anonymisation d’un jeu de données

Découvrez la differential privacy, un modèle utilisé par de grandes entreprises technologiques comme Apple, Google et Uber. Dans ce chapitre, vous explorerez les données en générant des histogrammes privés et en calculant des moyennes privées. Vous créerez également des modèles de Machine Learning différentiellement privés qui permettent aux entreprises d’augmenter l’utilité de leurs données.

Exercise 1: Introduction à la confidentialité différentielle Exercise 2: Epsilon (ϵ) : le nombre magique Exercise 3: Histogrammes avec confidentialité différentielle Exercise 4: Budgets de confidentialité Exercise 5: Utiliser des budgets de confidentialité Exercise 6: Quand il n’y a plus de budget Exercise 7: Explorer des données avec un gestionnaire de budget de confidentialité Exercise 8: Modèles de Machine Learning avec confidentialité différentielle Exercise 9: Créer un classifieur avec confidentialité différentielle Exercise 10: Prédire les salaires Exercise 11: Modèles de clustering avec confidentialité différentielle Exercise 12: Prétraiter les données Exercise 13: Segmenter les clients

Dans ce dernier chapitre, vous apprendrez à appliquer des méthodes de réduction de dimensionnalité telles que l’analyse en composantes principales (PCA) pour anonymiser de grands jeux de données multicolonnes. Vous utiliserez ensuite Faker pour générer des jeux de données réalistes et cohérents, et scikit-learn pour créer des jeux de données synthétiques suivant une distribution normale. Enfin, vous rassemblerez tout ce que vous avez appris dans ce cours en combinant plusieurs techniques afin de publier des jeux de données en toute sécurité.

Exercise 1: ACP pour l’anonymisation Exercise 2: Anonymisation de données à haute dimension Exercise 3: Masquage de données avec la PCA Exercise 4: Générer des jeux de données réalistes avec Faker Exercise 5: Jeu de données synthétique cohérent Exercise 6: Jeux de données avec la même distribution probabiliste Exercise 7: Créer des jeux de données synthétiques avec scikit-learn Exercise 8: Générer des jeux de données pour la classification Exercise 9: Générer des jeux de données pour le clustering Exercise 10: Publier des jeux de données en toute sécurité Exercise 11: Explorer et pseudonymiser un jeu de données Exercise 12: Préparer les données des employés pour une publication sécurisée Exercise 13: Excellent travail !