LoslegenKostenlos loslegen

Summe der quadrierten Fehler berechnen und plotten

Jetzt berechnest du die Summe der quadrierten Fehler für unterschiedliche Anzahlen von Clustern von 1 bis 10.

Du verwendest die normalisierten RFMT-Daten aus der vorherigen Aufgabe, gespeichert als datamart_rfmt_normalized. Das Modul KMeans aus scikit-learn ist ebenfalls importiert. Außerdem haben wir ein leeres Dictionary initialisiert, um die Summen der quadrierten Fehler zu speichern: sse = {}.

Fühl dich frei, die Daten in der Konsole zu erkunden.

Diese Übung ist Teil des Kurses

Kundensegmentierung in Python

Kurs anzeigen

Anleitung zur Übung

  • Initialisiere KMeans mit k Clustern und random_state=1 und fitten das Modell auf dem normalisierten Datensatz.
  • Weise die Summe der quadrierten Distanzen dem k-Element des sse-Dictionary zu.
  • Füge den Plot-Titel "The Elbow Method", die X-Achsenbeschriftung "k" und die Y-Achsenbeschriftung "SSE" hinzu.
  • Plotte die SSE-Werte für jedes k, das als Schlüssel im Dictionary gespeichert ist.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Fit KMeans and calculate SSE for each k between 1 and 10
for k in range(1, 11):
  
    # Initialize KMeans with k clusters and fit it 
    kmeans = ____(____=____, ____=1 ).____(datamart_rfmt_normalized)
    
    # Assign sum of squared distances to k element of the sse dictionary
    ____[____] = kmeans.____   

# Add the plot title, x and y axis labels
plt.____('The Elbow Method')
plt.____('____')
plt.____('____')

# Plot SSE values for each k stored as keys in the dictionary
sns.____(x=list(sse.____()), y=list(sse.____()))
plt.show()
Code bearbeiten und ausführen