Aan de slagGa gratis aan de slag

Impact van features op clusterkwaliteit

Onderzoek hoe individuele features de clusteringprestatie van een KMeans-model beïnvloeden. De gegevensset X wordt gebruikt voor klantsegmentatie op basis van drie features: inkomen, aantal kinderen en aantal tieners in huis.

De functie silhouette_score en de variabele column_names zijn alvast voor je ingeladen.

Deze oefening maakt deel uit van de cursus

Explainable AI in Python

Cursus bekijken

Oefeninstructies

  • Bepaal de oorspronkelijke silhouette score (original_score).
  • Verwijder in de for-lus de features één voor één en sla het resultaat op in X_reduced.
  • Bereken de nieuwe silhouette score (new_score).
  • Bereken de impact van de feature.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

kmeans = KMeans(n_clusters=5, random_state=10, n_init=10).fit(X)
# Derive the original silhouette score
original_score = ____

for i in range(X.shape[1]):
  	# Remove feature at index i
    X_reduced = ____
    kmeans.fit(X_reduced)
    # Compute the new silhouette score
    new_score = ____
    # Compute the feature's impact
    impact = ____
    print(f'Feature {column_names[i]}: Impact = {impact}')
Code bewerken en uitvoeren