Calculer la somme des erreurs quadratiques
Dans cet exercice, vous allez calculer la somme des erreurs quadratiques pour différents nombres de clusters allant de 1 à 15. Dans cet exemple, nous utilisons un jeu de données créé sur mesure afin d’obtenir un coude plus net.
Nous avons chargé la version normalisée des données sous data_normalized. Le module KMeans de scikit-learn est déjà importé. Nous avons également initialisé un dictionnaire vide pour stocker les sommes des erreurs quadratiques : sse = {}.
N’hésitez pas à explorer les données dans la console.
Cet exercice fait partie du cours
Customer Segmentation in Python
Instructions
- Ajustez KMeans et calculez la SSE pour chaque
kdans un intervalle de 1 à 15. - Initialisez KMeans avec
kclusters etrandom_state=1. - Ajustez KMeans sur l’ensemble de données normalisé.
- Affectez la somme des distances quadratiques à l’élément
kdu dictionnairesse.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Fit KMeans and calculate SSE for each k
for k in range(____, ____):
# Initialize KMeans with k clusters
kmeans = ____(n_clusters=____, random_state=1)
# Fit KMeans on the normalized dataset
kmeans.____(data_normalized)
# Assign sum of squared distances to k element of dictionary
sse[____] = kmeans.____