LoslegenKostenlos loslegen

Auswirkungen der Merkmale auf die Cluster-Qualität

Untersuche nun, wie sich einzelne Merkmale auf die Clustering-Leistung eines KMeans-Modells auswirken. Der Datensatz X wird für die Kundensegmentierung genutzt, und zwar anhand von drei Merkmalen: Einkommen, Anzahl der Kinder und Anzahl der Teenager im Haushalt.

Die Funktion silhouette_score und die Variable column_names wurden bereits geladen.

Diese Übung ist Teil des Kurses

Erklärbare KI in Python

Kurs anzeigen

Anleitung zur Übung

  • Leite den ursprünglichen Silhouettenwert ab (original_score).
  • Entferne in der for-Schleife ein Merkmal nach dem anderen und speichere das Ergebnis in X_reduced.
  • Berechne den neuen Silhouettenwert (new_score).
  • Berechne den Einfluss (impact) des Merkmals.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

kmeans = KMeans(n_clusters=5, random_state=10, n_init=10).fit(X)
# Derive the original silhouette score
original_score = ____

for i in range(X.shape[1]):
  	# Remove feature at index i
    X_reduced = ____
    kmeans.fit(X_reduced)
    # Compute the new silhouette score
    new_score = ____
    # Compute the feature's impact
    impact = ____
    print(f'Feature {column_names[i]}: Impact = {impact}')
Code bearbeiten und ausführen