Regroupement hiérarchique : préparation à l’exploration
Vous avez maintenant créé un regroupement potentiel pour les données oes. Avant de pouvoir explorer ces clusters avec ggplot2, vous devez transformer la matrice de données oes en un data frame « tidy », où chaque profession se voit attribuer son cluster.
Cet exercice fait partie du cours
Analyse de clusters avec R
Instructions
- Créez le data frame
df_oesà partir de la data.matrixoes, en veillant à stocker le nom de ligne comme une colonne (utilisezrownames_to_column()de la bibliothèquetibble). - Construisez le vecteur d’assignation de clusters
cut_oesà l’aide decutree()avech = 100,000. - Ajoutez les assignations de clusters comme colonne
clusterau data framedf_oeset enregistrez le résultat dans un nouveau data frame appeléclust_oes. - Utilisez la fonction
pivot_longer()de la bibliothèquetidyr()pour remodeler les données dans un format adapté à l’analyse avec ggplot2 et enregistrez le data frame remis en forme sous le nomgathered_oes.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
dist_oes <- dist(oes, method = 'euclidean')
hc_oes <- hclust(dist_oes, method = 'average')
library(tibble)
library(tidyr)
# Use rownames_to_column to move the rownames into a column of the data frame
df_oes <- rownames_to_column(as.data.frame(___), var = 'occupation')
# Create a cluster assignment vector at h = 100,000
cut_oes <- cutree(___, h = ___)
# Generate the segmented oes data frame
clust_oes <- mutate(___, cluster = ___)
# Create a tidy data frame by gathering the year and values into two columns
gathered_oes <- pivot_longer(data = ___,
cols = -c(occupation, cluster),
names_to = "year",
values_to = "mean_salary" )