Impact des variables sur la qualité des clusters
Explorez comment chaque variable influence les performances de clustering d’un modèle KMeans. Le jeu de données X est utilisé pour la segmentation client à partir de trois variables : revenu, nombre d’enfants et nombre d’adolescents au foyer.
La fonction silhouette_score et la variable column_names ont été préchargées pour vous.
Cet exercice fait partie du cours
IA explicable en Python
Instructions
- Calculez le score de silhouette d’origine (
original_score). - Dans la boucle for, supprimez les variables une par une et enregistrez le résultat dans
X_reduced. - Calculez le nouveau score de silhouette (
new_score). - Calculez l’
impactde la variable.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
kmeans = KMeans(n_clusters=5, random_state=10, n_init=10).fit(X)
# Derive the original silhouette score
original_score = ____
for i in range(X.shape[1]):
# Remove feature at index i
X_reduced = ____
kmeans.fit(X_reduced)
# Compute the new silhouette score
new_score = ____
# Compute the feature's impact
impact = ____
print(f'Feature {column_names[i]}: Impact = {impact}')