Featurebelang bij clusteren met ARI
Gebruik de Adjusted Rand Index (ARI) om kwantitatief te meten wat het effect is van het verwijderen van elke feature op de clusterindeling in de klantgegevensset waarmee je in de vorige oefening hebt gewerkt, al ingeladen in X.
De functie adjusted_rand_score() en de variabele column_names zijn al voor je ingeladen.
Deze oefening maakt deel uit van de cursus
Explainable AI in Python
Oefeninstructies
- Bepaal de oorspronkelijke clusterindeling in
original_clusters. - Verwijder in de for-lus features één voor één en sla het resultaat op in
X_reduced. - Bepaal de
reduced_clustersdoor K-means toe te passen opX_reduced. - Bereken het feature-
importanceop basis van de ARI tussen dereduced_clustersen deoriginal_clusters.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
kmeans = KMeans(n_clusters=5, random_state=10, n_init=10).fit(X)
# Derive original clusters
original_clusters = ____
for i in range(X.shape[1]):
# Remove feature at index i
X_reduced = ____
# Derive reduced clusters
reduced_clusters = ____
# Derive feature importance
importance = ____
print(f'{column_names[i]}: {importance}')