Auswirkungen der Merkmale auf die Cluster-Qualität
Untersuche nun, wie sich einzelne Merkmale auf die Clustering-Leistung eines KMeans-Modells auswirken. Der Datensatz X
wird für die Kundensegmentierung genutzt, und zwar anhand von drei Merkmalen: Einkommen, Anzahl der Kinder und Anzahl der Teenager im Haushalt.
Die Funktion silhouette_score
und die Variable column_names
wurden bereits geladen.
Diese Übung ist Teil des Kurses
Erklärbare KI in Python
Anleitung zur Übung
- Leite den ursprünglichen Silhouettenwert ab (
original_score
). - Entferne in der for-Schleife ein Merkmal nach dem anderen und speichere das Ergebnis in
X_reduced
. - Berechne den neuen Silhouettenwert (
new_score
). - Berechne den Einfluss (
impact
) des Merkmals.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
kmeans = KMeans(n_clusters=5, random_state=10, n_init=10).fit(X)
# Derive the original silhouette score
original_score = ____
for i in range(X.shape[1]):
# Remove feature at index i
X_reduced = ____
kmeans.fit(X_reduced)
# Compute the new silhouette score
new_score = ____
# Compute the feature's impact
impact = ____
print(f'Feature {column_names[i]}: Impact = {impact}')