Geschlechtsdaten erkunden
Die Daten gender enthalten die Indizes Weight, Height und BMI von 10.000 Personen. Im ursprünglichen Datensatz gibt es ein Gender-Label: 5.000 Personen identifizieren sich als weiblich und die anderen 5.000 als männlich. Diese Labels sind später nützlich, um zu testen, wie gut das Clustering im Vergleich zu den echten Labels abschneidet. In diesem Teil des Datensatzes sind die Labels jedoch nicht enthalten.
Die Daten gender_with_probs enthalten außerdem die Wahrscheinlichkeiten, mit der jeder Datenpunkt zu einem Cluster gehört. Da wir an zwei Clustern interessiert sind, beziehen sich Wahrscheinlichkeiten nahe 1 auf das eine Cluster und nahe 0 auf das andere.
Ziel dieser Übung ist es, einen Eindruck davon zu bekommen, wie ein typischer Clustering-Datensatz vor und nach dem Clustering aussieht.
Diese Übung ist Teil des Kurses
Mischungsmodelle in R
Anleitung zur Übung
- Verwende die Funktion
head, um dir die ersten 6 Beobachtungen vongenderanzusehen. - Verwende die Funktion
head, um dir die ersten 6 Beobachtungen vongender_with_probsanzusehen. - Erstelle ein Streudiagramm mit
Weightauf der x-Achse undBMIauf der y-Achse. Färbe die Punkte nach ihrer Wahrscheinlichkeit ein.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Have a look to gender (before clustering)
head(___)
# Have a look to gender_with_probs (after clustering)
head(___)
# Scatterplot with probabilities
gender_with_probs %>%
ggplot(aes(x = ___, y = ___, col = ___))+
geom_point(alpha = 0.5)