Som van kwadratische fouten berekenen
In deze oefening bereken je de som van kwadratische fouten voor verschillende aantallen clusters van 1 tot en met 15. In dit voorbeeld gebruiken we een zelfgemaakte gegevensset om een helderdere elbow-plot te krijgen.
We hebben de genormaliseerde versie van de data als data_normalized geladen. De KMeans-module uit scikit-learn is al geïmporteerd. Ook hebben we een lege dictionary geïnitialiseerd om de som van kwadratische fouten op te slaan als sse = {}.
Voel je vrij om de data in de console te verkennen.
Deze oefening maakt deel uit van de cursus
Klantsegmentatie in Python
Oefeninstructies
- Train KMeans en bereken de SSE voor elke
kmet een bereik tussen 1 en 15. - Initialiseer KMeans met
kclusters en random_state 1. - Train KMeans op de genormaliseerde gegevensset.
- Sla de som van kwadratische afstanden op onder het
k-element van desse-dictionary.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Fit KMeans and calculate SSE for each k
for k in range(____, ____):
# Initialize KMeans with k clusters
kmeans = ____(n_clusters=____, random_state=1)
# Fit KMeans on the normalized dataset
kmeans.____(data_normalized)
# Assign sum of squared distances to k element of dictionary
sse[____] = kmeans.____