Aan de slagGa gratis aan de slag

Visualiseer de clusters

Tot nu toe hebben we alles wat we nodig hebben om de observaties te plotten samen met de ellipsen die de clusters voorstellen.

Als we elke observatie aan een van de twee clusters willen toewijzen, kunnen we ook de functie clusters() gebruiken en de resultaten vergelijken met de echte labels. Ter herinnering: toen we alleen de variabele Weight gebruikten om de data te clusteren, voorspelden we correct 4500 vrouwen en 4556 mannen. Laten we kijken of we de clusters beter kunnen scheiden wanneer we een extra variabele meenemen.

Deze oefening maakt deel uit van de cursus

Mixture Models in R

Cursus bekijken

Oefeninstructies

  • Gebruik geom_point() om een spreidingsdiagram te maken voor Weight en BMI. Voeg aan deze plot de twee ellipsen toe die zijn opgeslagen in ellipses_comp_number met de functie geom_path().
  • Let erop dat de ellipsen eerst moeten worden omgezet naar een data frame.
  • Kleur cluster 1 rood en cluster 2 blauw.
  • Schat de frequentietabel voor de echte labels in de variabele Gender versus de voorspelde labels geschat door clusters.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Plot the ellipses
gender %>% 
  ggplot(aes(x = ___, y = ___)) + ___()+
  geom_path(data = data.frame(ellipse_comp_1), aes(x=x,y=y), col = "___") +
  geom_path(data = data.frame(ellipse_comp_2), aes(x=x,y=y), col = "___")
# Check the assignments
table(gender$Gender, clusters(fit_with_cov))
Code bewerken en uitvoeren