LoslegenKostenlos starten

Visualisiere die Cluster

Bis hierher haben wir alles, was wir brauchen, um die Beobachtungen zusammen mit den Ellipsen zu plotten, die die Cluster darstellen.

Wenn wir außerdem jede Beobachtung einem der beiden Cluster zuordnen wollen, können wir die Funktion clusters() verwenden und die Ergebnisse mit den echten Labels vergleichen. Zur Erinnerung: Als wir nur die Variable Weight zum Clustern verwendet haben, haben wir 4500 Frauen und 4556 Männer korrekt vorhergesagt. Schauen wir, ob wir die Cluster besser trennen können, wenn wir eine zusätzliche Variable einbeziehen.

Diese Übung ist Teil des Kurses

<Kurs>Mischungsmodelle in R</Kurs>
Kurs ansehen

Übungsanweisungen

  • Verwende geom_point(), um das Streudiagramm für Weight und BMI zu erstellen. Füge diesem Plot die zwei in ellipses_comp_number gespeicherten Ellipsen mit der Funktion geom_path() hinzu.
  • Achte darauf, dass die Ellipsen in einen Data Frame umgewandelt werden müssen.
  • Färbe Cluster 1 rot und Cluster 2 blau.
  • Erstelle die Häufigkeitstabelle für die echten Labels in der Variable Gender im Vergleich zu den durch clusters vorhergesagten.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Plot the ellipses
gender %>% 
  ggplot(aes(x = ___, y = ___)) + ___()+
  geom_path(data = data.frame(ellipse_comp_1), aes(x=x,y=y), col = "___") +
  geom_path(data = data.frame(ellipse_comp_2), aes(x=x,y=y), col = "___")
# Check the assignments
table(gender$Gender, clusters(fit_with_cov))
Code bearbeiten und ausführen