Analyse de silhouette

L’analyse de silhouette permet de mesurer à quel point chaque observation est similaire au cluster auquel elle est affectée par rapport aux autres clusters. Cette métrique (largeur de silhouette) varie de -1 à 1 pour chaque observation de vos données et s’interprète ainsi :

Des valeurs proches de 1 indiquent que l’observation correspond bien au cluster assigné
Des valeurs proches de 0 indiquent que l’observation est à la frontière entre deux clusters
Des valeurs proches de -1 indiquent que l’observation pourrait être affectée au mauvais cluster

Dans cet exercice, vous allez utiliser les fonctions pam() et silhouette() de la bibliothèque cluster pour réaliser une analyse de silhouette et comparer les résultats de modèles avec k = 2 et k = 3. Vous continuerez à travailler avec le jeu de données lineup.

Portez une attention particulière au graphique de silhouette : pour k = 3, chaque observation appartient-elle clairement à son cluster assigné ?

Cet exercice fait partie du cours

<cours>Analyse de clusters avec R</cours>

Voir le cours

Instructions de l’exercice

Générez un modèle k-means pam_k2 avec pam() et k = 2 sur les données lineup.
Tracez l’analyse de silhouette avec plot(silhouette(model)).
Répétez les deux premières étapes pour k = 3, en enregistrant le modèle sous pam_k3.
Avant de continuer, comparez bien les différences entre les graphiques (en particulier l’observation 3) pour pam_k3.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

library(cluster)

# Generate a k-means model using the pam() function with a k = 2
pam_k2 <- pam(___, k = ___)

# Plot the silhouette visual for the pam_k2 model
plot(silhouette(___))

# Generate a k-means model using the pam() function with a k = 3
pam_k3 <- ___

# Plot the silhouette visual for the pam_k3 model

Modifier et exécuter le code