k-means-clustering en resultaten vergelijken

Zoals je nu weet, zijn er twee hoofdtypen clustering: hiërarchisch en k-means.

In deze oefening maak je een k-means-clusteringmodel op de Wisconsin-borstkankergegevens en vergelijk je de resultaten met de daadwerkelijke diagnoses en de uitkomst van je hiërarchische clusteringmodel. Neem even de tijd om te bekijken hoe elk clusteringmodel presteert in het scheiden van de twee diagnoses en hoe de clusteringmodellen zich tot elkaar verhouden.

Deze oefening maakt deel uit van de cursus

Unsupervised learning in R

Bekijk cursus

Oefeninstructies

wisc.data, diagnosis en wisc.hclust.clusters zijn nog steeds beschikbaar.

Maak een k-means-model op wisc.data en sla het resultaat op in wisc.km. Zorg dat je 2 clusters maakt, overeenkomend met het daadwerkelijke aantal diagnosen. Vergeet ook niet de data te schalen en het algoritme 20 keer te herhalen om een goed presterend model te vinden.
Gebruik de functie table() om het clusterschap van het k-means-model te vergelijken met de daadwerkelijke diagnoses in de vector diagnosis. Hoe goed scheidt k-means de twee diagnoses?
Gebruik de functie table() om het clusterschap van het k-means-model te vergelijken met het hiërarchische clusteringmodel. Denk eraan dat het clusterschap van het hiërarchische clusteringmodel is opgeslagen in wisc.hclust.clusters.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create a k-means model on wisc.data: wisc.km


# Compare k-means to actual diagnoses


# Compare k-means to hierarchical clustering

Code bewerken en uitvoeren