Impact van features op clusterkwaliteit
Onderzoek hoe individuele features de clusteringprestatie van een KMeans-model beïnvloeden. De gegevensset X wordt gebruikt voor klantsegmentatie op basis van drie features: inkomen, aantal kinderen en aantal tieners in huis.
De functie silhouette_score en de variabele column_names zijn alvast voor je ingeladen.
Deze oefening maakt deel uit van de cursus
Explainable AI in Python
Oefeninstructies
- Bepaal de oorspronkelijke silhouette score (
original_score). - Verwijder in de for-lus de features één voor één en sla het resultaat op in
X_reduced. - Bereken de nieuwe silhouette score (
new_score). - Bereken de
impactvan de feature.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
kmeans = KMeans(n_clusters=5, random_state=10, n_init=10).fit(X)
# Derive the original silhouette score
original_score = ____
for i in range(X.shape[1]):
# Remove feature at index i
X_reduced = ____
kmeans.fit(X_reduced)
# Compute the new silhouette score
new_score = ____
# Compute the feature's impact
impact = ____
print(f'Feature {column_names[i]}: Impact = {impact}')