Geschlechtsdaten erkunden

Die Daten gender enthalten die Indizes Weight, Height und BMI von 10.000 Personen. Im ursprünglichen Datensatz gibt es ein Gender-Label: 5.000 Personen identifizieren sich als weiblich und die anderen 5.000 als männlich. Diese Labels sind später nützlich, um zu testen, wie gut das Clustering im Vergleich zu den echten Labels abschneidet. In diesem Teil des Datensatzes sind die Labels jedoch nicht enthalten.

Die Daten gender_with_probs enthalten außerdem die Wahrscheinlichkeiten, mit der jeder Datenpunkt zu einem Cluster gehört. Da wir an zwei Clustern interessiert sind, beziehen sich Wahrscheinlichkeiten nahe 1 auf das eine Cluster und nahe 0 auf das andere.

Ziel dieser Übung ist es, einen Eindruck davon zu bekommen, wie ein typischer Clustering-Datensatz vor und nach dem Clustering aussieht.

Diese Übung ist Teil des Kurses

Mischungsmodelle in R

Anleitung zur Übung

Verwende die Funktion head, um dir die ersten 6 Beobachtungen von gender anzusehen.
Verwende die Funktion head, um dir die ersten 6 Beobachtungen von gender_with_probs anzusehen.
Erstelle ein Streudiagramm mit Weight auf der x-Achse und BMI auf der y-Achse. Färbe die Punkte nach ihrer Wahrscheinlichkeit ein.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Have a look to gender (before clustering)
head(___)

# Have a look to gender_with_probs (after clustering)
head(___)

# Scatterplot with probabilities
gender_with_probs %>% 
  ggplot(aes(x = ___, y = ___, col = ___))+
  geom_point(alpha = 0.5)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Mischungsmodelle in R

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

In diesem Kapitel lernst du grundlegende Konzepte des modellbasierten Clusterings kennen und wie sich dieser Ansatz von anderen Clustering-Verfahren unterscheidet. Du erfährst den Generierungsprozess von Gaußschen Mischungsmodellen und wie du die Cluster visualisieren kannst.

Exercise 1: Einführung in modellbasiertes Clustering Exercise 2: Clustering-Ansätze Exercise 3: Geschlechtsdaten erkunden

Aktuelle Übung

Exercise 4: Normalverteilung Exercise 5: Stichproben aus einer Gaußschen Verteilung Exercise 6: (nicht so gute) Schätzungen von Mittelwert und Standardabweichung Exercise 7: Gaussian-Mischungsmodelle (GMM)Exercise 8: Simuliere eine Mischung aus zwei Gaußschen Verteilungen Exercise 9: Histogramm einer Gaussian Mixture plotten Exercise 10: Mischung aus drei Gaußschen Verteilungen

In diesem Kapitel lernst du die Grundstruktur von Mischungsmodellen kennen, wie du mit diesem Ansatz unterschiedliche Datentypen behandelst und wie die beteiligten Parameter geschätzt werden. Für die Schätzung lernst du ein iteratives Verfahren kennen: den Expectation-Maximization-Algorithmus.

Exercise 1: Aufbau von Mischmodellen Exercise 2: Welche Wahrscheinlichkeitsverteilung?Exercise 3: Datensatz handgeschriebene Ziffern Exercise 4: Parameterschätzung Exercise 5: Schätzung bei gegebenen Wahrscheinlichkeiten Exercise 6: Wahrscheinlichkeiten berechnen Exercise 7: EM-Algorithmus Exercise 8: Expectation-Funktion Exercise 9: Maximierungsfunktion Exercise 10: Wende die zwei Schritte an Exercise 11: Die geschätzten Cluster plotten

Dieses Kapitel zeigt, wie man Gaußsche Mischungsmodelle in 1 und 2 Dimensionen mit dem Paket `flexmix` anpasst. Die verwendeten Daten bestehen aus 10.000 Beobachtungen von Personen mit ihrem Gewicht, ihrer Körpergröße, ihrem Body-Mass-Index und dem angegebenen Geschlecht.

Exercise 1: Univariate Gaussian-Mischungsmodelle Exercise 2: Anzahl der Cluster Exercise 3: Anzahl der Parameter Exercise 4: Univariate Gaußsche Mischungsmodelle mit flexmix Exercise 5: Univariater Fall mit flexmix Exercise 6: Parameter für den univariaten Fall extrahieren Exercise 7: Univariates Gaußsches Mischmodell visualisieren Exercise 8: Vergleiche die Ergebnisse Exercise 9: Bivariate Gaußsche Mischungsmodelle Exercise 10: Kreuzterm aus der Kovarianzmatrix Exercise 11: Parameter im bivariaten Fall Exercise 12: Bivariate Gaußsche Mischungsmodelle mit flexmix Exercise 13: Modell mit Kreuztermen fitten Exercise 14: Die Komponenten abrufen Exercise 15: Erzeuge die Ellipsen Exercise 16: Visualisiere die Cluster

In diesem Modul lernst du, wie Mischungsmodelle auf Wahrscheinlichkeitsverteilungen jenseits der Gauß-Verteilung erweitert werden und wie diese Modelle mit `flexmix` angepasst werden. Die Datensätze sind Bilder handgeschriebener Ziffern und die Anzahl der Straftaten in der Stadt Chicago. Beim ersten Datensatz findest du Cluster, die die handgeschriebenen Ziffern zusammenfassen, und beim zweiten Datensatz findest du Cluster von Stadtteilen, in denen es mehr oder weniger gefährlich ist, zu leben.

Exercise 1: Bernoulli-Mischungsmodelle Exercise 2: Binäre Bilder Exercise 3: Wie viele Werte?Exercise 4: Bernoulli-Mischungsmodelle mit flexmix Exercise 5: Handgeschriebene Ziffern mit `flexmix`Exercise 6: Poisson-Mischungsmodelle Exercise 7: Finde das Lambda heraus Exercise 8: Stichprobe aus der Poisson-Verteilung Exercise 9: Poisson-Mischungsmodelle mit flexmix Exercise 10: Verbrechensdaten mit `flexmix`