Importance des caractéristiques dans le clustering avec l’ARI
Exploitez l’Adjusted Rand Index (ARI) pour mesurer quantitativement l’impact de la suppression de chaque caractéristique sur l’affectation aux clusters dans le jeu de données clients utilisé à l’exercice précédent, préchargé dans X.
La fonction adjusted_rand_score() et la variable column_names ont été préchargées pour vous.
Cet exercice fait partie du cours
IA explicable en Python
Instructions
- Calculez les affectations de clusters d’origine dans
original_clusters. - Dans la boucle for, supprimez les caractéristiques une par une et enregistrez le résultat dans
X_reduced. - Obtenez
reduced_clustersen appliquant K-means surX_reduced. - Calculez l’
importancede chaque caractéristique à partir de l’ARI entrereduced_clustersetoriginal_clusters.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
kmeans = KMeans(n_clusters=5, random_state=10, n_init=10).fit(X)
# Derive original clusters
original_clusters = ____
for i in range(X.shape[1]):
# Remove feature at index i
X_reduced = ____
# Derive reduced clusters
reduced_clusters = ____
# Derive feature importance
importance = ____
print(f'{column_names[i]}: {importance}')