Visualiseer de clusters
Tot nu toe hebben we alles wat we nodig hebben om de observaties te plotten samen met de ellipsen die de clusters voorstellen.
Als we elke observatie aan een van de twee clusters willen toewijzen, kunnen we ook de functie clusters() gebruiken en de resultaten vergelijken met de echte labels. Ter herinnering: toen we alleen de variabele Weight gebruikten om de data te clusteren, voorspelden we correct 4500 vrouwen en 4556 mannen. Laten we kijken of we de clusters beter kunnen scheiden wanneer we een extra variabele meenemen.
Deze oefening maakt deel uit van de cursus
Mixture Models in R
Oefeninstructies
- Gebruik
geom_point()om een spreidingsdiagram te maken voorWeightenBMI. Voeg aan deze plot de twee ellipsen toe die zijn opgeslagen inellipses_comp_numbermet de functiegeom_path(). - Let erop dat de ellipsen eerst moeten worden omgezet naar een data frame.
- Kleur cluster 1 rood en cluster 2 blauw.
- Schat de frequentietabel voor de echte labels in de variabele
Genderversus de voorspelde labels geschat doorclusters.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Plot the ellipses
gender %>%
ggplot(aes(x = ___, y = ___)) + ___()+
geom_path(data = data.frame(ellipse_comp_1), aes(x=x,y=y), col = "___") +
geom_path(data = data.frame(ellipse_comp_2), aes(x=x,y=y), col = "___")
# Check the assignments
table(gender$Gender, clusters(fit_with_cov))