Comparer kmeans() et hclust()

En comparant k-means et le clustering hiérarchique, vous verrez que les deux méthodes produisent des appartenances aux clusters différentes. Cela vient du fait que les deux algorithmes font des hypothèses différentes sur la manière dont les données sont générées. Dans un cours plus avancé, on pourrait choisir un modèle plutôt qu’un autre selon la qualité de ses hypothèses, mais pour l’instant, il suffit de constater qu’ils diffèrent.

Dans cet exercice, vous allez comparer les résultats des deux modèles sur le jeu de données pokemon pour voir en quoi ils diffèrent.

Cet exercice fait partie du cours

<cours>Apprentissage non supervisé en R</cours>

Voir le cours

Instructions de l’exercice

Les résultats de k-means appliqué aux données pokemon (pour 3 clusters) sont stockés dans km.pokemon. Le modèle de clustering hiérarchique que vous avez créé à l’exercice précédent est toujours disponible sous le nom hclust.pokemon.

Utilisez cutree() sur hclust.pokemon pour attribuer un cluster à chaque observation. Supposons trois clusters et affectez le résultat à un vecteur appelé cut.pokemon.
À l’aide de table(), comparez l’appartenance aux clusters entre les deux méthodes. Rappelez-vous que les différents composants des objets modèle k-means sont accessibles avec l’opérateur $.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Apply cutree() to hclust.pokemon: cut.pokemon


# Compare methods
table(___, ___)

Modifier et exécuter le code