CommencerCommencer gratuitement

Prétraiter les données

Le prétraitement pour le clustering permet de préparer les données afin d’obtenir une segmentation plus fiable. L’une des méthodes courantes est la mise à l’échelle des variables, qui consiste à standardiser les variables indépendantes présentes dans les données pour les faire entrer dans une plage fixe, par exemple 0-1 ou 0-100.

Dans cet exercice, vous allez effectuer un clustering sur les colonnes parental_level_of_education et writing_score du jeu de données de performance des élèves chargé sous le nom performance. Vous commencerez par créer et exécuter un modèle de k-means sans aucun prétraitement. Ensuite, vous ferez la même chose, mais en prétraitant les données avec une mise à l’échelle des caractéristiques.

Le modèle k-means privé a été importé sous le nom KMeans depuis diffprivlib.models. Le standardiseur StandardScaler et la réduction de dimension PCA ont été importés depuis sklearn.

Cet exercice fait partie du cours

Confidentialité des données et anonymisation en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Build the differentially private k-means model
model = KMeans(____)

# Fit the model to the data
____

# Print the inertia in the console output
print("The inertia of the private model is: ", model.inertia_)
Modifier et exécuter le code