Calculer la somme des erreurs quadratiques

Dans cet exercice, vous allez calculer la somme des erreurs quadratiques pour différents nombres de clusters allant de 1 à 15. Dans cet exemple, nous utilisons un jeu de données créé sur mesure afin d’obtenir un coude plus net.

Nous avons chargé la version normalisée des données sous data_normalized. Le module KMeans de scikit-learn est déjà importé. Nous avons également initialisé un dictionnaire vide pour stocker les sommes des erreurs quadratiques : sse = {}.

N’hésitez pas à explorer les données dans la console.

Cet exercice fait partie du cours

Customer Segmentation in Python

Afficher le cours

Instructions

Ajustez KMeans et calculez la SSE pour chaque k dans un intervalle de 1 à 15.
Initialisez KMeans avec k clusters et random_state=1.
Ajustez KMeans sur l’ensemble de données normalisé.
Affectez la somme des distances quadratiques à l’élément k du dictionnaire sse.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Fit KMeans and calculate SSE for each k
for k in range(____, ____):
  
    # Initialize KMeans with k clusters
    kmeans = ____(n_clusters=____, random_state=1)
    
    # Fit KMeans on the normalized dataset
    kmeans.____(data_normalized)
    
    # Assign sum of squared distances to k element of dictionary
    sse[____] = kmeans.____

Modifier et exécuter le code