CommencerCommencez gratuitement

Prétraiter les données

Le prétraitement pour le clustering permet de préparer les données afin d’obtenir une segmentation plus fiable. L’une des méthodes courantes est la mise à l’échelle des variables, qui consiste à standardiser les variables indépendantes présentes dans les données pour les faire entrer dans une plage fixe, par exemple 0-1 ou 0-100.

Dans cet exercice, vous allez effectuer un clustering sur les colonnes parental_level_of_education et writing_score du jeu de données de performance des élèves chargé sous le nom performance. Vous commencerez par créer et exécuter un modèle de k-means sans aucun prétraitement. Ensuite, vous ferez la même chose, mais en prétraitant les données avec une mise à l’échelle des caractéristiques.

Le modèle k-means privé a été importé sous le nom KMeans depuis diffprivlib.models. Le standardiseur StandardScaler et la réduction de dimension PCA ont été importés depuis sklearn.

Cet exercice fait partie du cours

<cours>Confidentialité des données et anonymisation en Python</cours>
Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Build the differentially private k-means model
model = KMeans(____)

# Fit the model to the data
____

# Print the inertia in the console output
print("The inertia of the private model is: ", model.inertia_)
Modifier et exécuter le code