Cluster-Labels extrahieren

In der vorherigen Übung hast du gesehen, dass die Zwischenstufe des Clusterings der Getreideproben auf Höhe 6 drei Cluster hat. Verwende nun die Funktion fcluster(), um die Cluster-Labels für dieses Zwischen-Clustering zu extrahieren, und vergleiche die Labels mit den Getreidesorten mithilfe einer Kreuztabelle.

Das hierarchische Clustering wurde bereits durchgeführt, und mergings ist das Ergebnis der Funktion linkage(). Die Liste varieties gibt die Sorte jeder Getreideprobe an.

Diese Übung ist Teil des Kurses

<Kurs>Unsupervised Learning in Python</Kurs>

Übungsanweisungen

Importiere:
- pandas als pd.
- fcluster aus scipy.cluster.hierarchy.
Führe ein flaches hierarchisches Clustering durch, indem du fcluster() auf mergings anwendest. Gib eine maximale Höhe von 6 und das Schlüsselwortargument criterion='distance' an.
Erstelle einen DataFrame df mit zwei Spalten namens 'labels' und 'varieties', wobei du für die Spaltenwerte jeweils labels bzw. varieties verwendest. Das wurde bereits für dich erledigt.
Erstelle eine Kreuztabelle ct zwischen df['labels'] und df['varieties'], um zu zählen, wie oft jede Getreidesorte mit jedem Cluster-Label zusammenfällt.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Perform the necessary imports
import ____ as ____
from ____ import ____

# Use fcluster to extract labels: labels
labels = ____

# Create a DataFrame with labels and varieties as columns: df
df = pd.DataFrame({'labels': labels, 'varieties': varieties})

# Create crosstab: ct
ct = ____

# Display ct
print(ct)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Unsupervised Learning in Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Lerne, die zugrunde liegenden Gruppen (oder „Cluster“) in einem Datensatz zu entdecken. Am Ende dieses Kapitels clusterst du Unternehmen anhand ihrer Aktienkurse und unterscheidest verschiedene Arten, indem du ihre Messwerte clustert.

Exercise 1: Unüberwachtes Lernen Exercise 2: Wie viele Cluster?Exercise 3: Clustering von zweidimensionalen Punkten Exercise 4: Untersuche dein Clustering Exercise 5: Bewertung eines Clustering Exercise 6: Wie viele Getreide-Cluster?Exercise 7: Bewertung des Getreide-Clusterings Exercise 8: Merkmale transformieren für bessere Clusterings Exercise 9: Fischdaten fürs Clustering skalieren Exercise 10: Fischdaten clustern Exercise 11: Aktien mit KMeans clustern Exercise 12: Welche Aktien bewegen sich gemeinsam?

In diesem Kapitel lernst du zwei Unsupervised-Learning-Techniken zur Datenvisualisierung kennen: hierarchisches Clustering und t-SNE. Hierarchisches Clustering fasst Datenproben zu immer gröberen Clustern zusammen und erzeugt so eine Baumvisualisierung der resultierenden Cluster-Hierarchie. t-SNE projiziert die Datenproben in einen 2D-Raum, sodass ihre Nähe zueinander visuell dargestellt werden kann.

Exercise 1: Visualisierung von Hierarchien Exercise 2: Wie viele Zusammenführungen?Exercise 3: Hierarchisches Clustering der Getreidedaten Exercise 4: Hierarchien von Aktien Exercise 5: Cluster-Labels in der hierarchischen Clusterbildung Exercise 6: Welche Cluster liegen am nächsten?Exercise 7: Andere Linkage-Variante, anderes hierarchisches Clustering!Exercise 8: Clustering auf Zwischenstufen Exercise 9: Cluster-Labels extrahieren

Aktuelle Übung

Exercise 10: t-SNE für zweidimensionale Repräsentationen Exercise 11: t-SNE-Visualisierung des Getreide-Datensatzes Exercise 12: Eine t-SNE-Karte des Aktienmarkts

Dimensionsreduktion fasst einen Datensatz anhand häufig auftretender Muster zusammen. In diesem Kapitel lernst du die grundlegendste Technik der Dimensionsreduktion kennen: die „Principal Component Analysis“ („PCA“). PCA wird oft vor dem Supervised Learning eingesetzt, um Modellleistung und Generalisierung zu verbessern. Es ist auch für Unsupervised Learning nützlich. Du wirst zum Beispiel eine Variante von PCA verwenden, mit der du Wikipedia-Artikel nach ihrem Inhalt clustern kannst!

Exercise 1: Visualisierung der PCA-Transformation Exercise 2: Korrelierte Daten in der Natur Exercise 3: Dekorrelation der Getreidemessungen mit PCA Exercise 4: Principal components (Hauptkomponenten)Exercise 5: Intrinsische Dimension Exercise 6: Die erste Hauptkomponente Exercise 7: Varianz der PCA-Merkmale Exercise 8: Intrinsische Dimension der Fischdaten Exercise 9: Dimensionsreduktion mit PCA Exercise 10: Dimensionsreduktion der Fischmessungen Exercise 11: Ein tf-idf-Worthäufigkeit-Array Exercise 12: Wikipedia clustern, Teil I Exercise 13: Wikipedia clustern, Teil II

In diesem Kapitel lernst du eine Technik der Dimensionsreduktion kennen, die „Non-negative Matrix Factorization“ („NMF“), die Proben als Kombinationen interpretierbarer Teile darstellt. So werden etwa Dokumente als Kombinationen von Themen ausgedrückt und Bilder anhand häufig auftretender visueller Muster. Außerdem lernst du, mit NMF Empfehlungssysteme zu bauen, die dir ähnliche Artikel zum Lesen vorschlagen oder Musik-Künstlerinnen und -Künstler empfehlen, die zu deinem Hörverhalten passen!

Exercise 1: Nichtnegative Matrixfaktorisierung (NMF)Exercise 2: Nichtnegative Daten Exercise 3: NMF auf Wikipedia-Artikeln angewendet Exercise 4: NMF-Merkmale der Wikipedia-Artikel Exercise 5: Rekonstruktion der Proben mittels NMF Exercise 6: NMF lernt interpretierbare Bestandteile Exercise 7: NMF lernt Themen von Dokumenten Exercise 8: Erkunde den LED-Ziffern-Datensatz Exercise 9: NMF lernt Bestandteile von Bildern Exercise 10: PCA lernt keine Bestandteile Exercise 11: Empfehlungssysteme mit NMF bauen Exercise 12: Welche Artikel sind ähnlich zu 'Cristiano Ronaldo'?Exercise 13: Musiker empfehlen, Teil I Exercise 14: Musiker empfehlen, Teil II Exercise 15: Abschließende Gedanken