De kansen berekenen

In de vorige oefening zag je hoe je de gemiddelden en proporties kunt schatten wanneer de kansen gegeven zijn. In deze oefening ga je de kansen schatten wanneer de gemiddelden en de proporties bekend zijn. Neem aan dat de gemiddelden voor cluster 1 en 2 respectievelijk 10 en 50 zijn, en dat cluster 1 35 procent van de populatie vertegenwoordigt.

Omdat we ons alleen bezighouden met het schatten van de parameters, neem ook aan dat beide sd gelijk zijn aan 10. De gegevensset gaussian_sample staat voor je klaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Mixture Models in R

Oefeninstructies

Maak een nieuwe data frame gaussian_sample_with_probs met de schattingen van de kansen voor cluster 1 en 2. Maak daarvoor twee nieuwe variabelen aan: prob_cluster1 en prob_cluster2. Vergeet niet de kansen te schalen.
Bekijk de eerste 6 observaties van gaussian_sample_with_probs.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create data frame with probabilities
gaussian_sample_with_probs <- gaussian_sample %>% 
  ___(prob_from_cluster1 = 0.35 * ___(___, mean = 10, sd = 10),
         prob_from_cluster2 = 0.65 * dnorm(___, mean = 50, sd = 10),
         prob_cluster1 = ___/(prob_from_cluster1 + prob_from_cluster2),
         prob_cluster2 = ___/(prob_from_cluster1 + prob_from_cluster2)) %>%
  select(x, prob_cluster1, prob_cluster2) 
         
head(___)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Mixture Models in R

SkillTag.level.intermediateSkillTag.label

4.7+

Begin gratis met de cursus

In dit hoofdstuk maak je kennis met de basisconcepten van modelgebaseerd clusteren en hoe deze aanpak verschilt van andere clusteringtechnieken. Je leert het generatieproces van Gaussian Mixture Models en hoe je de clusters kunt visualiseren.

Exercise 1: Introductie van modelgebaseerde clustering Exercise 2: Clustering-methoden Exercise 3: Verken geslachtsgegevens Exercise 4: Gaussiaanse verdeling Exercise 5: Steekproeven uit een Gaussische verdeling nemen Exercise 6: (niet zo goed) Schattingen van het gemiddelde en de sd Exercise 7: Gaussian mixturemodellen (GMM)Exercise 8: Simuleer een mengsel van twee Gaussische verdelingen Exercise 9: Histogram van Gaussian Mixture plotten Exercise 10: Mix van drie Gaussiaanse verdelingen

In dit hoofdstuk maak je kennis met de hoofdstructuur van Mixture Models, hoe je met deze aanpak verschillende typen data benadert en hoe je de betrokken parameters schat. Voor de schatting leer je een iteratieve methode kennen: het Expectation-Maximization-algoritme.

Exercise 1: Structuur van mengmodellen Exercise 2: Welke kansverdeling?Exercise 3: Gegevensset met handgeschreven cijfers Exercise 4: Schatting van parameters Exercise 5: Schatting gegeven de waarschijnlijkheden Exercise 6: De kansen berekenen

Huidige oefening

Exercise 7: EM-algoritme Exercise 8: Expectation-functie Exercise 9: Maximization-functie Exercise 10: Pas de twee stappen toe Exercise 11: Plot de geschatte clusters

Dit hoofdstuk laat zien hoe je Gaussian Mixture Models in 1 en 2 dimensies fit met het pakket `flexmix`. De gebruikte data bestaat uit 10.000 observaties van personen met hun gewicht, lengte, body mass index en opgegeven geslacht.

Exercise 1: Univariate Gaussian Mixture Models Exercise 2: Aantal clusters Exercise 3: Aantal parameters Exercise 4: Univariate Gaussiaanse mengmodellen met flexmix Exercise 5: Univariate geval met flexmix Exercise 6: Parameters extraheren voor univariate geval Exercise 7: Een univariate Gaussian Mixture Model visualiseren Exercise 8: Vergelijk de resultaten Exercise 9: Bivariate Gaussiaanse mengmodellen Exercise 10: Kruis-term uit de covariantiematrix Exercise 11: Parameters in het bivariate geval Exercise 12: Bivariate Gaussiaanse mengmodellen met flexmix Exercise 13: Het model met kruistermen fitten Exercise 14: Haal de componenten op Exercise 15: Maak de ellipsen Exercise 16: Visualiseer de clusters

In deze module leer je hoe Mixture Models worden uitgebreid naar kansverdelingen anders dan de Gaussische en hoe deze modellen met `flexmix` worden gefit. De datasets zijn afbeeldingen van handgeschreven cijfers en het aantal misdrijven in de stad Chicago. Voor de eerste gegevensset vind je clusters die de handgeschreven cijfers samenvatten en voor de tweede gegevensset vind je clusters van buurten waar het meer of minder gevaarlijk is om te wonen.

Exercise 1: Bernoulli-mengmodellen Exercise 2: Binaire afbeeldingen Exercise 3: Hoeveel waarden?Exercise 4: Bernoulli-mixturemodellen met flexmix Exercise 5: Handgeschreven cijfers met `flexmix`Exercise 6: Poisson-mengmodellen Exercise 7: Ontdek de lambda Exercise 8: Steekproef uit een Poisson-verdeling Exercise 9: Poisson-mixturemodellen met flexmix Exercise 10: Crimes-gegevens met `flexmix`