k-means-clustering en resultaten vergelijken
Zoals je nu weet, zijn er twee hoofdtypen clustering: hiërarchisch en k-means.
In deze oefening maak je een k-means-clusteringmodel op de Wisconsin-borstkankergegevens en vergelijk je de resultaten met de daadwerkelijke diagnoses en de uitkomst van je hiërarchische clusteringmodel. Neem even de tijd om te bekijken hoe elk clusteringmodel presteert in het scheiden van de twee diagnoses en hoe de clusteringmodellen zich tot elkaar verhouden.
Deze oefening maakt deel uit van de cursus
Unsupervised learning in R
Oefeninstructies
wisc.data, diagnosis en wisc.hclust.clusters zijn nog steeds beschikbaar.
- Maak een k-means-model op
wisc.dataen sla het resultaat op inwisc.km. Zorg dat je 2 clusters maakt, overeenkomend met het daadwerkelijke aantal diagnosen. Vergeet ook niet de data te schalen en het algoritme 20 keer te herhalen om een goed presterend model te vinden. - Gebruik de functie
table()om het clusterschap van het k-means-model te vergelijken met de daadwerkelijke diagnoses in de vectordiagnosis. Hoe goed scheidt k-means de twee diagnoses? - Gebruik de functie
table()om het clusterschap van het k-means-model te vergelijken met het hiërarchische clusteringmodel. Denk eraan dat het clusterschap van het hiërarchische clusteringmodel is opgeslagen inwisc.hclust.clusters.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a k-means model on wisc.data: wisc.km
# Compare k-means to actual diagnoses
# Compare k-means to hierarchical clustering