K-means : analyse du coude
Dans les exercices précédents, vous avez utilisé le dendrogramme pour proposer un regroupement en 3 clusters. Dans cet exercice, vous allez vous appuyer sur le graphique du coude pour k-means afin de proposer le « meilleur » nombre de clusters.
Cet exercice fait partie du cours
Analyse de clusters avec R
Instructions
- Utilisez
map_dbl()pour exécuterkmeans()sur les donnéesoespour des valeurs de k allant de 1 à 10 et extrayez la valeur de la somme des carrés intra-cluster totale de chaque modèle :model$tot.withinss. Stockez le vecteur obtenu danstot_withinss. - Créez un nouveau data frame
elbow_dfcontenant les valeurs de k et le vecteur de somme des carrés intra-cluster totale. - Utilisez les valeurs de
elbow_dfpour tracer un graphique en lignes montrant la relation entre k et la somme des carrés intra-cluster totale.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Use map_dbl to run many models with varying value of k (centers)
tot_withinss <- map_dbl(1:10, function(k){
model <- kmeans(x = ___, centers = ___)
model$tot.withinss
})
# Generate a data frame containing both k and tot_withinss
elbow_df <- data.frame(
k = ___,
tot_withinss = ___
)
# Plot the elbow plot
ggplot(elbow_df, aes(x = ___, y = ___)) +
geom_line() +
scale_x_continuous(breaks = 1:10)