Merkmalswichtigkeit beim Clustering mit ARI
Nutze den Adjusted Rand Index (ARI), um quantitativ zu messen, wie sich das Entfernen der einzelnen Merkmale auf die Clusterzuordnung in dem Kundendatensatz auswirkt, mit dem du in der vorherigen Übung gearbeitet hast und der in X
geladen wurde.
Die Funktion adjusted_rand_score()
und die Variable column_names
wurden bereits geladen.
Diese Übung ist Teil des Kurses
Erklärbare KI in Python
Anleitung zur Übung
- Leite die ursprünglichen Clusterzuordnungen in
original_clusters
ab. - Entferne in der for-Schleife ein Merkmal nach dem anderen und speichere das Ergebnis in
X_reduced
. - Leite
reduced_clusters
ab, indem du K-means aufX_reduced
anwendest. - Berechne anhand von ARI die Merkmalswichtigkeit (
importance
) zwischenreduced_clusters
undoriginal_clusters
.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
kmeans = KMeans(n_clusters=5, random_state=10, n_init=10).fit(X)
# Derive original clusters
original_clusters = ____
for i in range(X.shape[1]):
# Remove feature at index i
X_reduced = ____
# Derive reduced clusters
reduced_clusters = ____
# Derive feature importance
importance = ____
print(f'{column_names[i]}: {importance}')