Aantal clusters kiezen

In deze oefening vergelijk je de resultaten van je hiërarchische clusteringmodel met de echte diagnoses. Normaal gesproken is bij dit soort unsupervised learning geen doelvariabele beschikbaar. In deze gegevensset hebben we die wel, waardoor we de prestaties van het clusteringmodel kunnen controleren.

Bij supervised learning — dus wanneer je een interessante doelvariabele wilt voorspellen en die variabele in de oorspronkelijke data aanwezig is — kan het maken van nieuwe features met clustering de prestaties van het uiteindelijke model wel of niet verbeteren. Deze oefening helpt je bepalen of hiërarchische clustering in dit geval een veelbelovende nieuwe feature oplevert.

Deze oefening maakt deel uit van de cursus

Unsupervised learning in R

Bekijk cursus

Oefeninstructies

wisc.data, diagnosis, wisc.pr, pve en wisc.hclust zijn beschikbaar in je werkruimte.

Gebruik cutree() om de boom te knippen zodat er 4 clusters ontstaan. Wijs de output toe aan de variabele wisc.hclust.clusters.
Gebruik de functie table() om het clusterschap te vergelijken met de echte diagnoses.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Cut tree so that it has 4 clusters: wisc.hclust.clusters


# Compare cluster membership to actual diagnoses

Code bewerken en uitvoeren