Aan de slagGa gratis aan de slag

Clusteren op PCA-resultaten

In deze laatste oefening combineer je meerdere stappen die je eerder gebruikte. Zo ervaar je een deel van de creativiteit die typisch is voor unsupervised learning.

Herinner je uit eerdere oefeningen dat het PCA-model aanzienlijk minder features nodig had om 80% en 95% van de variabiliteit in de data te beschrijven. Naast het normaliseren van data en mogelijk overfitting vermijden, decorreleert PCA ook de variabelen, wat soms de prestaties van andere modelleertechnieken verbetert.

Laten we kijken of PCA de prestaties van hiërarchisch clusteren verbetert of juist verslechtert.

Deze oefening maakt deel uit van de cursus

Unsupervised learning in R

Cursus bekijken

Oefeninstructies

wisc.pr, diagnosis, wisc.hclust.clusters en wisc.km zijn nog beschikbaar in je werkruimte.

  • Gebruik het minimale aantal hoofdcomponenten dat nodig is om minstens 90% van de variabiliteit in de data te beschrijven en maak een hiërarchisch clusteringmodel met complete linkage. Ken de resultaten toe aan wisc.pr.hclust.
  • Knip dit hiërarchische clusteringmodel in 4 clusters en ken de resultaten toe aan wisc.pr.hclust.clusters.
  • Gebruik table() om de resultaten van je nieuwe hiërarchische clusteringmodel te vergelijken met de echte diagnoses. Hoe goed scheidt het nieuw gemaakte model met vier clusters de twee diagnoses?
  • Hoe goed doen de k-means- en hiërarchische clusteringmodellen die je in eerdere oefeningen hebt gemaakt het in termen van het scheiden van de diagnoses? Gebruik opnieuw de functie table() om de uitvoer van elk model te vergelijken met de vector met de echte diagnoses.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a hierarchical clustering model: wisc.pr.hclust
wisc.pr.hclust <- ___(dist(wisc.pr$___[, ___:___]), method = ___)

# Cut model into 4 clusters: wisc.pr.hclust.clusters


# Compare to actual diagnoses


# Compare to k-means and hierarchical
Code bewerken en uitvoeren