Graphique du coude (Scree plot)
Dans les exercices précédents, vous avez calculé la somme des carrés intra-cluster totale pour des valeurs de k allant de 1 à 10. Vous pouvez visualiser cette relation avec un graphique en lignes afin de créer ce que l’on appelle un graphique du coude (ou scree plot).
Lorsque vous examinez un graphique du coude, vous cherchez une chute nette d’un k à l’autre, suivie d’une diminution plus progressive de la pente. La dernière valeur de k avant que la pente ne s’atténue suggère une « bonne » valeur de k.
Cet exercice fait partie du cours
Analyse de clusters avec R
Instructions
- En poursuivant votre travail de l’exercice précédent, utilisez les valeurs de
elbow_dfpour tracer un graphique en lignes montrant la relation entre k et la somme des carrés intra-cluster totale.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Use map_dbl to run many models with varying value of k (centers)
tot_withinss <- map_dbl(1:10, function(k){
model <- kmeans(x = lineup, centers = k)
model$tot.withinss
})
# Generate a data frame containing both k and tot_withinss
elbow_df <- data.frame(
k = 1:10,
tot_withinss = tot_withinss
)
# Plot the elbow plot
ggplot(___, aes(x = ___, y = ___)) +
geom_line() +
scale_x_continuous(breaks = 1:10)