Schatting gegeven de waarschijnlijkheden

Parameters schatten voor mixture models is niet eenvoudig. Maar als je de waarschijnlijkheden hebt voor het behoren tot elk cluster, zijn de schattingen van de gemiddelden en de verhoudingen van de clusters een stuk makkelijker.

In deze oefening gebruik je een gegevensset die is gemaakt met twee Gaussiaanse verdelingen, gaussian_sample_with_probs. In de oorspronkelijke vorm heeft die alleen de kolom x, maar hier krijg je ook de waarschijnlijkheden voor elk cluster (prob_cluster1 en prob_cluster2). Het doel is om de parameters te schatten en vervolgens de geschatte mix te visualiseren.

Deze oefening maakt deel uit van de cursus

Mixture Models in R

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Estimation of the means
___ <- ___ %>% 
  summarise(mean_cluster1= sum(___*prob_cluster1)/sum(prob_cluster1),
            mean_cluster2 = sum(x*___)/sum(___))
means_estimates

# Estimation of the proportions
props_estimates <- ___ %>% 
  summarise(props_cluster1 = ___(prob_cluster1),
            props_cluster2 = 1 - ___)
props_estimates

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Mixture Models in R

SkillTag.level.intermediateSkillTag.label

4.7+

Begin gratis met de cursus

In dit hoofdstuk maak je kennis met de basisconcepten van modelgebaseerd clusteren en hoe deze aanpak verschilt van andere clusteringtechnieken. Je leert het generatieproces van Gaussian Mixture Models en hoe je de clusters kunt visualiseren.

Exercise 1: Introductie van modelgebaseerde clustering Exercise 2: Clustering-methoden Exercise 3: Verken geslachtsgegevens Exercise 4: Gaussiaanse verdeling Exercise 5: Steekproeven uit een Gaussische verdeling nemen Exercise 6: (niet zo goed) Schattingen van het gemiddelde en de sd Exercise 7: Gaussian mixturemodellen (GMM)Exercise 8: Simuleer een mengsel van twee Gaussische verdelingen Exercise 9: Histogram van Gaussian Mixture plotten Exercise 10: Mix van drie Gaussiaanse verdelingen

In dit hoofdstuk maak je kennis met de hoofdstructuur van Mixture Models, hoe je met deze aanpak verschillende typen data benadert en hoe je de betrokken parameters schat. Voor de schatting leer je een iteratieve methode kennen: het Expectation-Maximization-algoritme.

Exercise 1: Structuur van mengmodellen Exercise 2: Welke kansverdeling?Exercise 3: Gegevensset met handgeschreven cijfers Exercise 4: Schatting van parameters Exercise 5: Schatting gegeven de waarschijnlijkheden

Huidige oefening

Exercise 6: De kansen berekenen Exercise 7: EM-algoritme Exercise 8: Expectation-functie Exercise 9: Maximization-functie Exercise 10: Pas de twee stappen toe Exercise 11: Plot de geschatte clusters

Dit hoofdstuk laat zien hoe je Gaussian Mixture Models in 1 en 2 dimensies fit met het pakket `flexmix`. De gebruikte data bestaat uit 10.000 observaties van personen met hun gewicht, lengte, body mass index en opgegeven geslacht.

Exercise 1: Univariate Gaussian Mixture Models Exercise 2: Aantal clusters Exercise 3: Aantal parameters Exercise 4: Univariate Gaussiaanse mengmodellen met flexmix Exercise 5: Univariate geval met flexmix Exercise 6: Parameters extraheren voor univariate geval Exercise 7: Een univariate Gaussian Mixture Model visualiseren Exercise 8: Vergelijk de resultaten Exercise 9: Bivariate Gaussiaanse mengmodellen Exercise 10: Kruis-term uit de covariantiematrix Exercise 11: Parameters in het bivariate geval Exercise 12: Bivariate Gaussiaanse mengmodellen met flexmix Exercise 13: Het model met kruistermen fitten Exercise 14: Haal de componenten op Exercise 15: Maak de ellipsen Exercise 16: Visualiseer de clusters

In deze module leer je hoe Mixture Models worden uitgebreid naar kansverdelingen anders dan de Gaussische en hoe deze modellen met `flexmix` worden gefit. De datasets zijn afbeeldingen van handgeschreven cijfers en het aantal misdrijven in de stad Chicago. Voor de eerste gegevensset vind je clusters die de handgeschreven cijfers samenvatten en voor de tweede gegevensset vind je clusters van buurten waar het meer of minder gevaarlijk is om te wonen.

Exercise 1: Bernoulli-mengmodellen Exercise 2: Binaire afbeeldingen Exercise 3: Hoeveel waarden?Exercise 4: Bernoulli-mixturemodellen met flexmix Exercise 5: Handgeschreven cijfers met `flexmix`Exercise 6: Poisson-mengmodellen Exercise 7: Ontdek de lambda Exercise 8: Steekproef uit een Poisson-verdeling Exercise 9: Poisson-mixturemodellen met flexmix Exercise 10: Crimes-gegevens met `flexmix`