CommencerCommencer gratuitement

Regroupement hiérarchique : préparation à l’exploration

Vous avez maintenant créé un regroupement potentiel pour les données oes. Avant de pouvoir explorer ces clusters avec ggplot2, vous devez transformer la matrice de données oes en un data frame « tidy », où chaque profession se voit attribuer son cluster.

Cet exercice fait partie du cours

Analyse de clusters avec R

Afficher le cours

Instructions

  • Créez le data frame df_oes à partir de la data.matrix oes, en veillant à stocker le nom de ligne comme une colonne (utilisez rownames_to_column() de la bibliothèque tibble).
  • Construisez le vecteur d’assignation de clusters cut_oes à l’aide de cutree() avec h = 100,000.
  • Ajoutez les assignations de clusters comme colonne cluster au data frame df_oes et enregistrez le résultat dans un nouveau data frame appelé clust_oes.
  • Utilisez la fonction pivot_longer() de la bibliothèque tidyr() pour remodeler les données dans un format adapté à l’analyse avec ggplot2 et enregistrez le data frame remis en forme sous le nom gathered_oes.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

dist_oes <- dist(oes, method = 'euclidean')
hc_oes <- hclust(dist_oes, method = 'average')

library(tibble)
library(tidyr)

# Use rownames_to_column to move the rownames into a column of the data frame
df_oes <- rownames_to_column(as.data.frame(___), var = 'occupation')

# Create a cluster assignment vector at h = 100,000
cut_oes <- cutree(___, h = ___)

# Generate the segmented oes data frame
clust_oes <- mutate(___, cluster = ___)

# Create a tidy data frame by gathering the year and values into two columns
gathered_oes <- pivot_longer(data = ___, 
                       cols = -c(occupation, cluster),
                       names_to = "year",               
                       values_to = "mean_salary" )
Modifier et exécuter le code