Prétraiter les données

Le prétraitement pour le clustering permet de préparer les données afin d’obtenir une segmentation plus fiable. L’une des méthodes courantes est la mise à l’échelle des variables, qui consiste à standardiser les variables indépendantes présentes dans les données pour les faire entrer dans une plage fixe, par exemple 0-1 ou 0-100.

Dans cet exercice, vous allez effectuer un clustering sur les colonnes parental_level_of_education et writing_score du jeu de données de performance des élèves chargé sous le nom performance. Vous commencerez par créer et exécuter un modèle de k-means sans aucun prétraitement. Ensuite, vous ferez la même chose, mais en prétraitant les données avec une mise à l’échelle des caractéristiques.

Le modèle k-means privé a été importé sous le nom KMeans depuis diffprivlib.models. Le standardiseur StandardScaler et la réduction de dimension PCA ont été importés depuis sklearn.

Cet exercice fait partie du cours

Confidentialité des données et anonymisation en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Build the differentially private k-means model
model = KMeans(____)

# Fit the model to the data
____

# Print the inertia in the console output
print("The inertia of the private model is: ", model.inertia_)

Modifier et exécuter le code

Cet exercice fait partie du cours

Confidentialité des données et anonymisation en Python

AvancéNiveau de compétence

4.9+

Commencer le cours gratuitement

Préparez-vous à appliquer des techniques d’anonymisation comme la suppression de données, le masquage, la génération de données synthétiques et la généralisation. Dans ce chapitre, vous apprendrez à distinguer les informations personnellement identifiables (PII) sensibles et non sensibles, les quasi-identifiants, ainsi que les bases du RGPD. Vous verrez aussi des exemples concrets de ce qui peut mal tourner si ces bonnes pratiques ne sont pas respectées.

Exercise 1: Qu’est-ce qui est privé, et pourquoi est-ce important ?Exercise 2: La vie privée, c’est le pouvoir Exercise 3: Est-ce sensible ou non sensible ?Exercise 4: Suppression d’attributs sensibles Exercise 5: Masquage des données et génération de données avec Faker Exercise 6: Masquage des PII sensibles Exercise 7: Supprimer les noms avec faker Exercise 8: Anonymiser avec la généralisation des données Exercise 9: Réduire le risque de ré-identification grâce à la généralisation Exercise 10: Agrégation de données et généralisation de données Exercise 11: Top- et bottom-coding des salaires de la Maison-Blanche

Découvrez comment anonymiser des données en échantillonnant des jeux de données selon la distribution de probabilité des colonnes. Vous apprendrez ensuite à appliquer le modèle de confidentialité k-anonymat pour prévenir les attaques de recoupement ou de réidentification, et à utiliser des hiérarchies pour généraliser des variables catégorielles.

Exercise 1: Anonymiser des données catégorielles Exercise 2: Explorer la distribution des données Exercise 3: Échantillonnage à partir de la même distribution de probabilité Exercise 4: Anonymiser des données continues Exercise 5: Différentes distributions Exercise 6: Échantillonner à partir de la meilleure distribution continue Exercise 7: Introduction à la k-anonymat Exercise 8: Attributs de confidentialité Exercise 9: Généraliser en intervalles Exercise 10: Généraliser les données à l’aide de hiérarchies Exercise 11: Utiliser des hiérarchies pour des données catégorielles Exercise 12: K-anonymisation d’un jeu de données

Découvrez la differential privacy, un modèle utilisé par de grandes entreprises technologiques comme Apple, Google et Uber. Dans ce chapitre, vous explorerez les données en générant des histogrammes privés et en calculant des moyennes privées. Vous créerez également des modèles de Machine Learning différentiellement privés qui permettent aux entreprises d’augmenter l’utilité de leurs données.

Exercise 1: Introduction à la confidentialité différentielle Exercise 2: Epsilon (ϵ) : le nombre magique Exercise 3: Histogrammes avec confidentialité différentielle Exercise 4: Budgets de confidentialité Exercise 5: Utiliser des budgets de confidentialité Exercise 6: Quand il n’y a plus de budget Exercise 7: Explorer des données avec un gestionnaire de budget de confidentialité Exercise 8: Modèles de Machine Learning avec confidentialité différentielle Exercise 9: Créer un classifieur avec confidentialité différentielle Exercise 10: Prédire les salaires Exercise 11: Modèles de clustering avec confidentialité différentielle Exercise 12: Prétraiter les données

Exercice en cours

Exercise 13: Segmenter les clients

Dans ce dernier chapitre, vous apprendrez à appliquer des méthodes de réduction de dimensionnalité telles que l’analyse en composantes principales (PCA) pour anonymiser de grands jeux de données multicolonnes. Vous utiliserez ensuite Faker pour générer des jeux de données réalistes et cohérents, et scikit-learn pour créer des jeux de données synthétiques suivant une distribution normale. Enfin, vous rassemblerez tout ce que vous avez appris dans ce cours en combinant plusieurs techniques afin de publier des jeux de données en toute sécurité.

Exercise 1: ACP pour l’anonymisation Exercise 2: Anonymisation de données à haute dimension Exercise 3: Masquage de données avec la PCA Exercise 4: Générer des jeux de données réalistes avec Faker Exercise 5: Jeu de données synthétique cohérent Exercise 6: Jeux de données avec la même distribution probabiliste Exercise 7: Créer des jeux de données synthétiques avec scikit-learn Exercise 8: Générer des jeux de données pour la classification Exercise 9: Générer des jeux de données pour le clustering Exercise 10: Publier des jeux de données en toute sécurité Exercise 11: Explorer et pseudonymiser un jeu de données Exercise 12: Préparer les données des employés pour une publication sécurisée Exercise 13: Excellent travail !