Summe der quadrierten Fehler berechnen
In dieser Übung berechnest du die Summe der quadrierten Fehler für verschiedene Anzahlen von Clustern von 1 bis 15. In diesem Beispiel verwenden wir einen eigens erstellten Datensatz, um den „Elbow“-Knick klarer zu sehen.
Wir haben die normalisierte Version der Daten als data_normalized geladen. Das KMeans-Modul aus scikit-learn ist bereits importiert. Außerdem haben wir ein leeres Dictionary initialisiert, um die Summe der quadrierten Fehler zu speichern: sse = {}.
Du kannst die Daten gerne in der Konsole erkunden.
Diese Übung ist Teil des Kurses
Kundensegmentierung in Python
Anleitung zur Übung
- Fitte KMeans und berechne die SSE für jedes
kim Bereich von 1 bis 15. - Initialisiere KMeans mit
kClustern undrandom_state=1. - Fitte KMeans auf dem normalisierten Datensatz.
- Weisen die Summe der quadrierten Distanzen dem
k-Element imsse-Dictionary zu.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Fit KMeans and calculate SSE for each k
for k in range(____, ____):
# Initialize KMeans with k clusters
kmeans = ____(n_clusters=____, random_state=1)
# Fit KMeans on the normalized dataset
kmeans.____(data_normalized)
# Assign sum of squared distances to k element of dictionary
sse[____] = kmeans.____