Summe der quadrierten Fehler berechnen

In dieser Übung berechnest du die Summe der quadrierten Fehler für verschiedene Anzahlen von Clustern von 1 bis 15. In diesem Beispiel verwenden wir einen eigens erstellten Datensatz, um den „Elbow“-Knick klarer zu sehen.

Wir haben die normalisierte Version der Daten als data_normalized geladen. Das KMeans-Modul aus scikit-learn ist bereits importiert. Außerdem haben wir ein leeres Dictionary initialisiert, um die Summe der quadrierten Fehler zu speichern: sse = {}.

Du kannst die Daten gerne in der Konsole erkunden.

Diese Übung ist Teil des Kurses

Kundensegmentierung in Python

Kurs anzeigen

Anleitung zur Übung

Fitte KMeans und berechne die SSE für jedes k im Bereich von 1 bis 15.
Initialisiere KMeans mit k Clustern und random_state=1.
Fitte KMeans auf dem normalisierten Datensatz.
Weisen die Summe der quadrierten Distanzen dem k-Element im sse-Dictionary zu.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Fit KMeans and calculate SSE for each k
for k in range(____, ____):
  
    # Initialize KMeans with k clusters
    kmeans = ____(n_clusters=____, random_state=1)
    
    # Fit KMeans on the normalized dataset
    kmeans.____(data_normalized)
    
    # Assign sum of squared distances to k element of dictionary
    sse[____] = kmeans.____

Code bearbeiten und ausführen