CommencerCommencer gratuitement

Impact des variables sur la qualité des clusters

Explorez comment chaque variable influence les performances de clustering d’un modèle KMeans. Le jeu de données X est utilisé pour la segmentation client à partir de trois variables : revenu, nombre d’enfants et nombre d’adolescents au foyer.

La fonction silhouette_score et la variable column_names ont été préchargées pour vous.

Cet exercice fait partie du cours

IA explicable en Python

Afficher le cours

Instructions

  • Calculez le score de silhouette d’origine (original_score).
  • Dans la boucle for, supprimez les variables une par une et enregistrez le résultat dans X_reduced.
  • Calculez le nouveau score de silhouette (new_score).
  • Calculez l’impact de la variable.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

kmeans = KMeans(n_clusters=5, random_state=10, n_init=10).fit(X)
# Derive the original silhouette score
original_score = ____

for i in range(X.shape[1]):
  	# Remove feature at index i
    X_reduced = ____
    kmeans.fit(X_reduced)
    # Compute the new silhouette score
    new_score = ____
    # Compute the feature's impact
    impact = ____
    print(f'Feature {column_names[i]}: Impact = {impact}')
Modifier et exécuter le code