kmeans() en hclust() vergelijken
Als je k-means en hiërarchisch clusteren vergelijkt, zie je dat de twee methoden verschillende clustertoewijzingen opleveren. Dat komt doordat de algoritmes andere aannames maken over hoe de data tot stand komt. In een meer gevorderde cursus zouden we kunnen kiezen voor het ene model boven het andere op basis van de kwaliteit van die aannames, maar voor nu is het genoeg om te constateren dat ze verschillen.
In deze oefening ga je de resultaten van beide modellen op de pokemon-gegevensset vergelijken om te zien hoe ze uiteenlopen.
Deze oefening maakt deel uit van de cursus
Unsupervised learning in R
Oefeninstructies
De resultaten van k-means-clustering op de pokemon-data (voor 3 clusters) zijn opgeslagen als km.pokemon. Het hiërarchische clusteringmodel dat je in de vorige oefening hebt gemaakt is nog beschikbaar als hclust.pokemon.
- Gebruik
cutree()ophclust.pokemonom elke observatie aan een cluster toe te wijzen. Ga uit van drie clusters en sla het resultaat op in een vectorcut.pokemon. - Gebruik
table()om de clustertoewijzing tussen de twee clusteringmethoden te vergelijken. Denk eraan dat je de verschillende componenten van k-means-modelobjecten kunt benaderen met de$-operator.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Apply cutree() to hclust.pokemon: cut.pokemon
# Compare methods
table(___, ___)