Aan de slagGa gratis aan de slag

Som van kwadratische fouten berekenen

In deze oefening bereken je de som van kwadratische fouten voor verschillende aantallen clusters van 1 tot en met 15. In dit voorbeeld gebruiken we een zelfgemaakte gegevensset om een helderdere elbow-plot te krijgen.

We hebben de genormaliseerde versie van de data als data_normalized geladen. De KMeans-module uit scikit-learn is al geïmporteerd. Ook hebben we een lege dictionary geïnitialiseerd om de som van kwadratische fouten op te slaan als sse = {}.

Voel je vrij om de data in de console te verkennen.

Deze oefening maakt deel uit van de cursus

Klantsegmentatie in Python

Cursus bekijken

Oefeninstructies

  • Train KMeans en bereken de SSE voor elke k met een bereik tussen 1 en 15.
  • Initialiseer KMeans met k clusters en random_state 1.
  • Train KMeans op de genormaliseerde gegevensset.
  • Sla de som van kwadratische afstanden op onder het k-element van de sse-dictionary.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Fit KMeans and calculate SSE for each k
for k in range(____, ____):
  
    # Initialize KMeans with k clusters
    kmeans = ____(n_clusters=____, random_state=1)
    
    # Fit KMeans on the normalized dataset
    kmeans.____(data_normalized)
    
    # Assign sum of squared distances to k element of dictionary
    sse[____] = kmeans.____
Code bewerken en uitvoeren