Visualisiere die Cluster

Bis hierher haben wir alles, was wir brauchen, um die Beobachtungen zusammen mit den Ellipsen zu plotten, die die Cluster darstellen.

Wenn wir außerdem jede Beobachtung einem der beiden Cluster zuordnen wollen, können wir die Funktion clusters() verwenden und die Ergebnisse mit den echten Labels vergleichen. Zur Erinnerung: Als wir nur die Variable Weight zum Clustern verwendet haben, haben wir 4500 Frauen und 4556 Männer korrekt vorhergesagt. Schauen wir, ob wir die Cluster besser trennen können, wenn wir eine zusätzliche Variable einbeziehen.

Diese Übung ist Teil des Kurses

<Kurs>Mischungsmodelle in R</Kurs>

Übungsanweisungen

Verwende geom_point(), um das Streudiagramm für Weight und BMI zu erstellen. Füge diesem Plot die zwei in ellipses_comp_number gespeicherten Ellipsen mit der Funktion geom_path() hinzu.
Achte darauf, dass die Ellipsen in einen Data Frame umgewandelt werden müssen.
Färbe Cluster 1 rot und Cluster 2 blau.
Erstelle die Häufigkeitstabelle für die echten Labels in der Variable Gender im Vergleich zu den durch clusters vorhergesagten.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Plot the ellipses
gender %>% 
  ggplot(aes(x = ___, y = ___)) + ___()+
  geom_path(data = data.frame(ellipse_comp_1), aes(x=x,y=y), col = "___") +
  geom_path(data = data.frame(ellipse_comp_2), aes(x=x,y=y), col = "___")
# Check the assignments
table(gender$Gender, clusters(fit_with_cov))

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Mischungsmodelle in R</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.7+

Kurs kostenlos starten

In diesem Kapitel lernst du grundlegende Konzepte des modellbasierten Clusterings kennen und wie sich dieser Ansatz von anderen Clustering-Verfahren unterscheidet. Du erfährst den Generierungsprozess von Gaußschen Mischungsmodellen und wie du die Cluster visualisieren kannst.

Exercise 1: Einführung in modellbasiertes Clustering Exercise 2: Clustering-Ansätze Exercise 3: Geschlechtsdaten erkunden Exercise 4: Normalverteilung Exercise 5: Stichproben aus einer Gaußschen Verteilung Exercise 6: (nicht so gute) Schätzungen von Mittelwert und Standardabweichung Exercise 7: Gaussian-Mischungsmodelle (GMM)Exercise 8: Simuliere eine Mischung aus zwei Gaußschen Verteilungen Exercise 9: Histogramm einer Gaussian Mixture plotten Exercise 10: Mischung aus drei Gaußschen Verteilungen

In diesem Kapitel lernst du die Grundstruktur von Mischungsmodellen kennen, wie du mit diesem Ansatz unterschiedliche Datentypen behandelst und wie die beteiligten Parameter geschätzt werden. Für die Schätzung lernst du ein iteratives Verfahren kennen: den Expectation-Maximization-Algorithmus.

Exercise 1: Aufbau von Mischmodellen Exercise 2: Welche Wahrscheinlichkeitsverteilung?Exercise 3: Datensatz handgeschriebene Ziffern Exercise 4: Parameterschätzung Exercise 5: Schätzung bei gegebenen Wahrscheinlichkeiten Exercise 6: Wahrscheinlichkeiten berechnen Exercise 7: EM-Algorithmus Exercise 8: Expectation-Funktion Exercise 9: Maximierungsfunktion Exercise 10: Wende die zwei Schritte an Exercise 11: Die geschätzten Cluster plotten

Dieses Kapitel zeigt, wie man Gaußsche Mischungsmodelle in 1 und 2 Dimensionen mit dem Paket `flexmix` anpasst. Die verwendeten Daten bestehen aus 10.000 Beobachtungen von Personen mit ihrem Gewicht, ihrer Körpergröße, ihrem Body-Mass-Index und dem angegebenen Geschlecht.

Exercise 1: Univariate Gaussian-Mischungsmodelle Exercise 2: Anzahl der Cluster Exercise 3: Anzahl der Parameter Exercise 4: Univariate Gaußsche Mischungsmodelle mit flexmix Exercise 5: Univariater Fall mit flexmix Exercise 6: Parameter für den univariaten Fall extrahieren Exercise 7: Univariates Gaußsches Mischmodell visualisieren Exercise 8: Vergleiche die Ergebnisse Exercise 9: Bivariate Gaußsche Mischungsmodelle Exercise 10: Kreuzterm aus der Kovarianzmatrix Exercise 11: Parameter im bivariaten Fall Exercise 12: Bivariate Gaußsche Mischungsmodelle mit flexmix Exercise 13: Modell mit Kreuztermen fitten Exercise 14: Die Komponenten abrufen Exercise 15: Erzeuge die Ellipsen Exercise 16: Visualisiere die Cluster

Aktuelle Übung

In diesem Modul lernst du, wie Mischungsmodelle auf Wahrscheinlichkeitsverteilungen jenseits der Gauß-Verteilung erweitert werden und wie diese Modelle mit `flexmix` angepasst werden. Die Datensätze sind Bilder handgeschriebener Ziffern und die Anzahl der Straftaten in der Stadt Chicago. Beim ersten Datensatz findest du Cluster, die die handgeschriebenen Ziffern zusammenfassen, und beim zweiten Datensatz findest du Cluster von Stadtteilen, in denen es mehr oder weniger gefährlich ist, zu leben.

Exercise 1: Bernoulli-Mischungsmodelle Exercise 2: Binäre Bilder Exercise 3: Wie viele Werte?Exercise 4: Bernoulli-Mischungsmodelle mit flexmix Exercise 5: Handgeschriebene Ziffern mit `flexmix`Exercise 6: Poisson-Mischungsmodelle Exercise 7: Finde das Lambda heraus Exercise 8: Stichprobe aus der Poisson-Verteilung Exercise 9: Poisson-Mischungsmodelle mit flexmix Exercise 10: Verbrechensdaten mit `flexmix`