Hiërarchische clustering van casusdata

Het doel van deze oefening is om hiërarchische clustering op de observaties uit te voeren. Herinner je uit Hoofdstuk 2 dat dit type clustering niet vooraf uitgaat van het aantal natuurlijke groepen in de data.

Als onderdeel van de voorbereiding voor hiërarchische clustering wordt de afstand tussen alle paren observaties berekend. Daarnaast zijn er verschillende manieren om clusters aan elkaar te koppelen, waarbij single, complete en average de meest gebruikte koppelingsmethoden zijn.

Deze oefening maakt deel uit van de cursus

Unsupervised learning in R

Bekijk cursus

Oefeninstructies

De variabelen die je eerder hebt gemaakt, wisc.data, diagnosis, wisc.pr en pve, zijn beschikbaar in je werkruimte.

Schaal de data in wisc.data en zet het resultaat in data.scaled.
Bereken de (Euclidische) afstanden tussen alle paren observaties in de nieuwe geschaalde gegevensset en zet het resultaat in data.dist.
Maak een hiërarchisch clusteringmodel met complete linkage. Specificeer handmatig het argument method in hclust() en sla de resultaten op in wisc.hclust.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Scale the wisc.data data: data.scaled


# Calculate the (Euclidean) distances: data.dist


# Create a hierarchical clustering model: wisc.hclust

Code bewerken en uitvoeren