Reprise des données de gros : exploration
D’après l’analyse précédente, vous avez constaté que k = 2 présente la plus grande largeur moyenne de silhouette. Dans cet exercice, vous allez poursuivre l’analyse des données de clients de gros en construisant et en explorant un modèle k-means avec 2 clusters.
Cet exercice fait partie du cours
Analyse de clusters avec R
Instructions
- Créez un modèle k-means nommé
model_customerspour les donnéescustomers_spendà l’aide de la fonctionkmeans()aveccenters = 2. - Extrayez le vecteur des attributions de clusters du modèle
model_customers$clusteret stockez-le dans la variableclust_customers. - Ajoutez les attributions de clusters comme colonne
clusterau data framecustomers_spendet enregistrez le résultat dans un nouveau data frame nommésegment_customers. - Calculez la taille de chaque cluster avec
count().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
set.seed(42)
# Build a k-means model for the customers_spend with a k of 2
model_customers <- ___
# Extract the vector of cluster assignments from the model
clust_customers <- ___
# Build the segment_customers data frame
segment_customers <- mutate(___, cluster = ___)
# Calculate the size of each cluster
count(___, ___)
# Calculate the mean for each category
segment_customers %>%
group_by(cluster) %>%
summarise_all(list(mean))