LoslegenKostenlos loslegen

Geschlechtsdaten erkunden

Die Daten gender enthalten die Indizes Weight, Height und BMI von 10.000 Personen. Im ursprünglichen Datensatz gibt es ein Gender-Label: 5.000 Personen identifizieren sich als weiblich und die anderen 5.000 als männlich. Diese Labels sind später nützlich, um zu testen, wie gut das Clustering im Vergleich zu den echten Labels abschneidet. In diesem Teil des Datensatzes sind die Labels jedoch nicht enthalten.

Die Daten gender_with_probs enthalten außerdem die Wahrscheinlichkeiten, mit der jeder Datenpunkt zu einem Cluster gehört. Da wir an zwei Clustern interessiert sind, beziehen sich Wahrscheinlichkeiten nahe 1 auf das eine Cluster und nahe 0 auf das andere.

Ziel dieser Übung ist es, einen Eindruck davon zu bekommen, wie ein typischer Clustering-Datensatz vor und nach dem Clustering aussieht.

Diese Übung ist Teil des Kurses

Mischungsmodelle in R

Kurs anzeigen

Anleitung zur Übung

  • Verwende die Funktion head, um dir die ersten 6 Beobachtungen von gender anzusehen.
  • Verwende die Funktion head, um dir die ersten 6 Beobachtungen von gender_with_probs anzusehen.
  • Erstelle ein Streudiagramm mit Weight auf der x-Achse und BMI auf der y-Achse. Färbe die Punkte nach ihrer Wahrscheinlichkeit ein.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Have a look to gender (before clustering)
head(___)

# Have a look to gender_with_probs (after clustering)
head(___)

# Scatterplot with probabilities
gender_with_probs %>% 
  ggplot(aes(x = ___, y = ___, col = ___))+
  geom_point(alpha = 0.5)
Code bearbeiten und ausführen