CommencerCommencer gratuitement

Regroupement hiérarchique des données du cas d’étude

L’objectif de cet exercice est de réaliser un regroupement hiérarchique des observations. Rappelez-vous, au chapitre 2, que ce type de regroupement ne suppose pas à l’avance le nombre de groupes naturels présents dans les données.

Dans la préparation d’un regroupement hiérarchique, on calcule les distances entre toutes les paires d’observations. De plus, il existe différentes manières de lier les clusters entre eux : les méthodes de liaison les plus courantes sont la simple, la complète et la moyenne.

Cet exercice fait partie du cours

Apprentissage non supervisé en R

Afficher le cours

Instructions

Les variables que vous avez créées précédemment, wisc.data, diagnosis, wisc.pr et pve, sont disponibles dans votre espace de travail.

  • Centrez-réduisez les données wisc.data et affectez le résultat à data.scaled.
  • Calculez les distances (euclidiennes) entre toutes les paires d’observations dans ce nouveau jeu de données standardisé et affectez le résultat à data.dist.
  • Créez un modèle de regroupement hiérarchique avec une liaison complète. Indiquez manuellement l’argument method de hclust() et affectez le résultat à wisc.hclust.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Scale the wisc.data data: data.scaled


# Calculate the (Euclidean) distances: data.dist


# Create a hierarchical clustering model: wisc.hclust
Modifier et exécuter le code