Visualisiere die Cluster
Bis hierher haben wir alles, was wir brauchen, um die Beobachtungen zusammen mit den Ellipsen zu plotten, die die Cluster darstellen.
Wenn wir außerdem jede Beobachtung einem der beiden Cluster zuordnen wollen, können wir die Funktion clusters() verwenden und die Ergebnisse mit den echten Labels vergleichen. Zur Erinnerung: Als wir nur die Variable Weight zum Clustern verwendet haben, haben wir 4500 Frauen und 4556 Männer korrekt vorhergesagt. Schauen wir, ob wir die Cluster besser trennen können, wenn wir eine zusätzliche Variable einbeziehen.
Diese Übung ist Teil des Kurses
Mischungsmodelle in R
Anleitung zur Übung
- Verwende
geom_point(), um das Streudiagramm fürWeightundBMIzu erstellen. Füge diesem Plot die zwei inellipses_comp_numbergespeicherten Ellipsen mit der Funktiongeom_path()hinzu. - Achte darauf, dass die Ellipsen in einen Data Frame umgewandelt werden müssen.
- Färbe Cluster 1 rot und Cluster 2 blau.
- Erstelle die Häufigkeitstabelle für die echten Labels in der Variable
Genderim Vergleich zu den durchclustersvorhergesagten.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Plot the ellipses
gender %>%
ggplot(aes(x = ___, y = ___)) + ___()+
geom_path(data = data.frame(ellipse_comp_1), aes(x=x,y=y), col = "___") +
geom_path(data = data.frame(ellipse_comp_2), aes(x=x,y=y), col = "___")
# Check the assignments
table(gender$Gender, clusters(fit_with_cov))