Verken geslachtsgegevens
De gegevens in gender bevatten de indices Weight, Height en BMI van 10.000 mensen. De originele gegevens hebben een Gender-label voor 5.000 mensen die zichzelf identificeren als vrouw en de andere 5.000 als man. De labels zijn later handig om te testen hoe goed de clustering presteert ten opzichte van de echte labels. In deze subset van de gegevensset zijn de labels echter niet aanwezig.
De gegevens in gender_with_probs bevatten ook de kansen dat elk datapunt tot een cluster behoort. Omdat we geïnteresseerd zijn in twee clusters, verwijzen kansen dicht bij 1 naar het ene cluster en dicht bij 0 naar het andere.
Het doel van deze oefening is om alvast te zien hoe een typische clustering-gegevensset eruitziet, vóór en na clustering.
Deze oefening maakt deel uit van de cursus
Mixture Models in R
Oefeninstructies
- Gebruik de functie
headom de eerste 6 observaties vangenderte bekijken. - Gebruik de functie
headom de eerste 6 observaties vangender_with_probste bekijken. - Maak een spreidingsdiagram met
Weightop de x-as enBMIop de y-as. Kleur de punten op basis van hun kans.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Have a look to gender (before clustering)
head(___)
# Have a look to gender_with_probs (after clustering)
head(___)
# Scatterplot with probabilities
gender_with_probs %>%
ggplot(aes(x = ___, y = ___, col = ___))+
geom_point(alpha = 0.5)