Som van kwadratische fouten berekenen

In deze oefening bereken je de som van kwadratische fouten voor verschillende aantallen clusters van 1 tot en met 15. In dit voorbeeld gebruiken we een zelfgemaakte gegevensset om een helderdere elbow-plot te krijgen.

We hebben de genormaliseerde versie van de data als data_normalized geladen. De KMeans-module uit scikit-learn is al geïmporteerd. Ook hebben we een lege dictionary geïnitialiseerd om de som van kwadratische fouten op te slaan als sse = {}.

Voel je vrij om de data in de console te verkennen.

Deze oefening maakt deel uit van de cursus

Klantsegmentatie in Python

Bekijk cursus

Oefeninstructies

Train KMeans en bereken de SSE voor elke k met een bereik tussen 1 en 15.
Initialiseer KMeans met k clusters en random_state 1.
Train KMeans op de genormaliseerde gegevensset.
Sla de som van kwadratische afstanden op onder het k-element van de sse-dictionary.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Fit KMeans and calculate SSE for each k
for k in range(____, ____):
  
    # Initialize KMeans with k clusters
    kmeans = ____(n_clusters=____, random_state=1)
    
    # Fit KMeans on the normalized dataset
    kmeans.____(data_normalized)
    
    # Assign sum of squared distances to k element of dictionary
    sse[____] = kmeans.____

Code bewerken en uitvoeren