Summe der quadrierten Fehler berechnen und plotten
Jetzt berechnest du die Summe der quadrierten Fehler für unterschiedliche Anzahlen von Clustern von 1 bis 10.
Du verwendest die normalisierten RFMT-Daten aus der vorherigen Aufgabe, gespeichert als datamart_rfmt_normalized. Das Modul KMeans aus scikit-learn ist ebenfalls importiert. Außerdem haben wir ein leeres Dictionary initialisiert, um die Summen der quadrierten Fehler zu speichern: sse = {}.
Fühl dich frei, die Daten in der Konsole zu erkunden.
Diese Übung ist Teil des Kurses
Kundensegmentierung in Python
Anleitung zur Übung
- Initialisiere KMeans mit
kClustern undrandom_state=1und fitten das Modell auf dem normalisierten Datensatz. - Weise die Summe der quadrierten Distanzen dem
k-Element dessse-Dictionary zu. - Füge den Plot-Titel "The Elbow Method", die X-Achsenbeschriftung "k" und die Y-Achsenbeschriftung "SSE" hinzu.
- Plotte die SSE-Werte für jedes
k, das als Schlüssel im Dictionary gespeichert ist.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Fit KMeans and calculate SSE for each k between 1 and 10
for k in range(1, 11):
# Initialize KMeans with k clusters and fit it
kmeans = ____(____=____, ____=1 ).____(datamart_rfmt_normalized)
# Assign sum of squared distances to k element of the sse dictionary
____[____] = kmeans.____
# Add the plot title, x and y axis labels
plt.____('The Elbow Method')
plt.____('____')
plt.____('____')
# Plot SSE values for each k stored as keys in the dictionary
sns.____(x=list(sse.____()), y=list(sse.____()))
plt.show()