Hiërarchische clustering van casusdata
Het doel van deze oefening is om hiërarchische clustering op de observaties uit te voeren. Herinner je uit Hoofdstuk 2 dat dit type clustering niet vooraf uitgaat van het aantal natuurlijke groepen in de data.
Als onderdeel van de voorbereiding voor hiërarchische clustering wordt de afstand tussen alle paren observaties berekend. Daarnaast zijn er verschillende manieren om clusters aan elkaar te koppelen, waarbij single, complete en average de meest gebruikte koppelingsmethoden zijn.
Deze oefening maakt deel uit van de cursus
Unsupervised learning in R
Oefeninstructies
De variabelen die je eerder hebt gemaakt, wisc.data, diagnosis, wisc.pr en pve, zijn beschikbaar in je werkruimte.
- Schaal de data in
wisc.dataen zet het resultaat indata.scaled. - Bereken de (Euclidische) afstanden tussen alle paren observaties in de nieuwe geschaalde gegevensset en zet het resultaat in
data.dist. - Maak een hiërarchisch clusteringmodel met complete linkage. Specificeer handmatig het argument
methodinhclust()en sla de resultaten op inwisc.hclust.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Scale the wisc.data data: data.scaled
# Calculate the (Euclidean) distances: data.dist
# Create a hierarchical clustering model: wisc.hclust