Verken geslachtsgegevens

De gegevens in gender bevatten de indices Weight, Height en BMI van 10.000 mensen. De originele gegevens hebben een Gender-label voor 5.000 mensen die zichzelf identificeren als vrouw en de andere 5.000 als man. De labels zijn later handig om te testen hoe goed de clustering presteert ten opzichte van de echte labels. In deze subset van de gegevensset zijn de labels echter niet aanwezig.

De gegevens in gender_with_probs bevatten ook de kansen dat elk datapunt tot een cluster behoort. Omdat we geïnteresseerd zijn in twee clusters, verwijzen kansen dicht bij 1 naar het ene cluster en dicht bij 0 naar het andere.

Het doel van deze oefening is om alvast te zien hoe een typische clustering-gegevensset eruitziet, vóór en na clustering.

Deze oefening maakt deel uit van de cursus

Mixture Models in R

Oefeninstructies

Gebruik de functie head om de eerste 6 observaties van gender te bekijken.
Gebruik de functie head om de eerste 6 observaties van gender_with_probs te bekijken.
Maak een spreidingsdiagram met Weight op de x-as en BMI op de y-as. Kleur de punten op basis van hun kans.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Have a look to gender (before clustering)
head(___)

# Have a look to gender_with_probs (after clustering)
head(___)

# Scatterplot with probabilities
gender_with_probs %>% 
  ggplot(aes(x = ___, y = ___, col = ___))+
  geom_point(alpha = 0.5)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Mixture Models in R

SkillTag.level.intermediateSkillTag.label

4.7+

Begin gratis met de cursus

In dit hoofdstuk maak je kennis met de basisconcepten van modelgebaseerd clusteren en hoe deze aanpak verschilt van andere clusteringtechnieken. Je leert het generatieproces van Gaussian Mixture Models en hoe je de clusters kunt visualiseren.

Exercise 1: Introductie van modelgebaseerde clustering Exercise 2: Clustering-methoden Exercise 3: Verken geslachtsgegevens

Huidige oefening

Exercise 4: Gaussiaanse verdeling Exercise 5: Steekproeven uit een Gaussische verdeling nemen Exercise 6: (niet zo goed) Schattingen van het gemiddelde en de sd Exercise 7: Gaussian mixturemodellen (GMM)Exercise 8: Simuleer een mengsel van twee Gaussische verdelingen Exercise 9: Histogram van Gaussian Mixture plotten Exercise 10: Mix van drie Gaussiaanse verdelingen

In dit hoofdstuk maak je kennis met de hoofdstructuur van Mixture Models, hoe je met deze aanpak verschillende typen data benadert en hoe je de betrokken parameters schat. Voor de schatting leer je een iteratieve methode kennen: het Expectation-Maximization-algoritme.

Exercise 1: Structuur van mengmodellen Exercise 2: Welke kansverdeling?Exercise 3: Gegevensset met handgeschreven cijfers Exercise 4: Schatting van parameters Exercise 5: Schatting gegeven de waarschijnlijkheden Exercise 6: De kansen berekenen Exercise 7: EM-algoritme Exercise 8: Expectation-functie Exercise 9: Maximization-functie Exercise 10: Pas de twee stappen toe Exercise 11: Plot de geschatte clusters

Dit hoofdstuk laat zien hoe je Gaussian Mixture Models in 1 en 2 dimensies fit met het pakket `flexmix`. De gebruikte data bestaat uit 10.000 observaties van personen met hun gewicht, lengte, body mass index en opgegeven geslacht.

Exercise 1: Univariate Gaussian Mixture Models Exercise 2: Aantal clusters Exercise 3: Aantal parameters Exercise 4: Univariate Gaussiaanse mengmodellen met flexmix Exercise 5: Univariate geval met flexmix Exercise 6: Parameters extraheren voor univariate geval Exercise 7: Een univariate Gaussian Mixture Model visualiseren Exercise 8: Vergelijk de resultaten Exercise 9: Bivariate Gaussiaanse mengmodellen Exercise 10: Kruis-term uit de covariantiematrix Exercise 11: Parameters in het bivariate geval Exercise 12: Bivariate Gaussiaanse mengmodellen met flexmix Exercise 13: Het model met kruistermen fitten Exercise 14: Haal de componenten op Exercise 15: Maak de ellipsen Exercise 16: Visualiseer de clusters

In deze module leer je hoe Mixture Models worden uitgebreid naar kansverdelingen anders dan de Gaussische en hoe deze modellen met `flexmix` worden gefit. De datasets zijn afbeeldingen van handgeschreven cijfers en het aantal misdrijven in de stad Chicago. Voor de eerste gegevensset vind je clusters die de handgeschreven cijfers samenvatten en voor de tweede gegevensset vind je clusters van buurten waar het meer of minder gevaarlijk is om te wonen.

Exercise 1: Bernoulli-mengmodellen Exercise 2: Binaire afbeeldingen Exercise 3: Hoeveel waarden?Exercise 4: Bernoulli-mixturemodellen met flexmix Exercise 5: Handgeschreven cijfers met `flexmix`Exercise 6: Poisson-mengmodellen Exercise 7: Ontdek de lambda Exercise 8: Steekproef uit een Poisson-verdeling Exercise 9: Poisson-mixturemodellen met flexmix Exercise 10: Crimes-gegevens met `flexmix`