Aan de slagGa gratis aan de slag

k-means-clustering en resultaten vergelijken

Zoals je nu weet, zijn er twee hoofdtypen clustering: hiërarchisch en k-means.

In deze oefening maak je een k-means-clusteringmodel op de Wisconsin-borstkankergegevens en vergelijk je de resultaten met de daadwerkelijke diagnoses en de uitkomst van je hiërarchische clusteringmodel. Neem even de tijd om te bekijken hoe elk clusteringmodel presteert in het scheiden van de twee diagnoses en hoe de clusteringmodellen zich tot elkaar verhouden.

Deze oefening maakt deel uit van de cursus

Unsupervised learning in R

Cursus bekijken

Oefeninstructies

wisc.data, diagnosis en wisc.hclust.clusters zijn nog steeds beschikbaar.

  • Maak een k-means-model op wisc.data en sla het resultaat op in wisc.km. Zorg dat je 2 clusters maakt, overeenkomend met het daadwerkelijke aantal diagnosen. Vergeet ook niet de data te schalen en het algoritme 20 keer te herhalen om een goed presterend model te vinden.
  • Gebruik de functie table() om het clusterschap van het k-means-model te vergelijken met de daadwerkelijke diagnoses in de vector diagnosis. Hoe goed scheidt k-means de twee diagnoses?
  • Gebruik de functie table() om het clusterschap van het k-means-model te vergelijken met het hiërarchische clusteringmodel. Denk eraan dat het clusterschap van het hiërarchische clusteringmodel is opgeslagen in wisc.hclust.clusters.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a k-means model on wisc.data: wisc.km


# Compare k-means to actual diagnoses


# Compare k-means to hierarchical clustering
Code bewerken en uitvoeren