Comparer kmeans() et hclust()
En comparant k-means et le clustering hiérarchique, vous verrez que les deux méthodes produisent des appartenances aux clusters différentes. Cela vient du fait que les deux algorithmes font des hypothèses différentes sur la manière dont les données sont générées. Dans un cours plus avancé, on pourrait choisir un modèle plutôt qu’un autre selon la qualité de ses hypothèses, mais pour l’instant, il suffit de constater qu’ils diffèrent.
Dans cet exercice, vous allez comparer les résultats des deux modèles sur le jeu de données pokemon pour voir en quoi ils diffèrent.
Cet exercice fait partie du cours
Apprentissage non supervisé en R
Instructions
Les résultats de k-means appliqué aux données pokemon (pour 3 clusters) sont stockés dans km.pokemon. Le modèle de clustering hiérarchique que vous avez créé à l’exercice précédent est toujours disponible sous le nom hclust.pokemon.
- Utilisez
cutree()surhclust.pokemonpour attribuer un cluster à chaque observation. Supposons trois clusters et affectez le résultat à un vecteur appelécut.pokemon. - À l’aide de
table(), comparez l’appartenance aux clusters entre les deux méthodes. Rappelez-vous que les différents composants des objets modèle k-means sont accessibles avec l’opérateur$.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Apply cutree() to hclust.pokemon: cut.pokemon
# Compare methods
table(___, ___)