Fischdaten clustern

Jetzt verwendest du deine Standardisierungs- und Clustering-Pipeline aus der vorherigen Übung, um die Fische anhand ihrer Messwerte zu clustern, und erstellst anschließend eine Kreuztabelle, um die Cluster-Labels mit den Fischarten zu vergleichen.

Wie zuvor ist samples das 2D-Array mit den Fischmessungen. Deine Pipeline ist als pipeline verfügbar, und die Art jeder Fischprobe steht in der Liste species.

Diese Übung ist Teil des Kurses

<Kurs>Unsupervised Learning in Python</Kurs>

Übungsanweisungen

Importiere pandas als pd.
Passe die Pipeline an die Fischmessungen (samples) an.
Ermittle die Cluster-Labels für samples mit der Methode .predict() von pipeline.
Erstelle mit pd.DataFrame() ein DataFrame df mit zwei Spalten namens 'labels' und 'species' und verwende dafür labels bzw. species als Spaltenwerte.
Erstelle mit pd.crosstab() eine Kreuztabelle ct aus df['labels'] und df['species'].

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import pandas
import pandas as pd

# Fit the pipeline to samples
____

# Calculate the cluster labels: labels
labels = ____

# Create a DataFrame with labels and species as columns: df
df = ____

# Create crosstab: ct
ct = ____

# Display ct
print(ct)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Unsupervised Learning in Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Lerne, die zugrunde liegenden Gruppen (oder „Cluster“) in einem Datensatz zu entdecken. Am Ende dieses Kapitels clusterst du Unternehmen anhand ihrer Aktienkurse und unterscheidest verschiedene Arten, indem du ihre Messwerte clustert.

Exercise 1: Unüberwachtes Lernen Exercise 2: Wie viele Cluster?Exercise 3: Clustering von zweidimensionalen Punkten Exercise 4: Untersuche dein Clustering Exercise 5: Bewertung eines Clustering Exercise 6: Wie viele Getreide-Cluster?Exercise 7: Bewertung des Getreide-Clusterings Exercise 8: Merkmale transformieren für bessere Clusterings Exercise 9: Fischdaten fürs Clustering skalieren Exercise 10: Fischdaten clustern

Aktuelle Übung

Exercise 11: Aktien mit KMeans clustern Exercise 12: Welche Aktien bewegen sich gemeinsam?

In diesem Kapitel lernst du zwei Unsupervised-Learning-Techniken zur Datenvisualisierung kennen: hierarchisches Clustering und t-SNE. Hierarchisches Clustering fasst Datenproben zu immer gröberen Clustern zusammen und erzeugt so eine Baumvisualisierung der resultierenden Cluster-Hierarchie. t-SNE projiziert die Datenproben in einen 2D-Raum, sodass ihre Nähe zueinander visuell dargestellt werden kann.

Exercise 1: Visualisierung von Hierarchien Exercise 2: Wie viele Zusammenführungen?Exercise 3: Hierarchisches Clustering der Getreidedaten Exercise 4: Hierarchien von Aktien Exercise 5: Cluster-Labels in der hierarchischen Clusterbildung Exercise 6: Welche Cluster liegen am nächsten?Exercise 7: Andere Linkage-Variante, anderes hierarchisches Clustering!Exercise 8: Clustering auf Zwischenstufen Exercise 9: Cluster-Labels extrahieren Exercise 10: t-SNE für zweidimensionale Repräsentationen Exercise 11: t-SNE-Visualisierung des Getreide-Datensatzes Exercise 12: Eine t-SNE-Karte des Aktienmarkts

Dimensionsreduktion fasst einen Datensatz anhand häufig auftretender Muster zusammen. In diesem Kapitel lernst du die grundlegendste Technik der Dimensionsreduktion kennen: die „Principal Component Analysis“ („PCA“). PCA wird oft vor dem Supervised Learning eingesetzt, um Modellleistung und Generalisierung zu verbessern. Es ist auch für Unsupervised Learning nützlich. Du wirst zum Beispiel eine Variante von PCA verwenden, mit der du Wikipedia-Artikel nach ihrem Inhalt clustern kannst!

Exercise 1: Visualisierung der PCA-Transformation Exercise 2: Korrelierte Daten in der Natur Exercise 3: Dekorrelation der Getreidemessungen mit PCA Exercise 4: Principal components (Hauptkomponenten)Exercise 5: Intrinsische Dimension Exercise 6: Die erste Hauptkomponente Exercise 7: Varianz der PCA-Merkmale Exercise 8: Intrinsische Dimension der Fischdaten Exercise 9: Dimensionsreduktion mit PCA Exercise 10: Dimensionsreduktion der Fischmessungen Exercise 11: Ein tf-idf-Worthäufigkeit-Array Exercise 12: Wikipedia clustern, Teil I Exercise 13: Wikipedia clustern, Teil II

In diesem Kapitel lernst du eine Technik der Dimensionsreduktion kennen, die „Non-negative Matrix Factorization“ („NMF“), die Proben als Kombinationen interpretierbarer Teile darstellt. So werden etwa Dokumente als Kombinationen von Themen ausgedrückt und Bilder anhand häufig auftretender visueller Muster. Außerdem lernst du, mit NMF Empfehlungssysteme zu bauen, die dir ähnliche Artikel zum Lesen vorschlagen oder Musik-Künstlerinnen und -Künstler empfehlen, die zu deinem Hörverhalten passen!

Exercise 1: Nichtnegative Matrixfaktorisierung (NMF)Exercise 2: Nichtnegative Daten Exercise 3: NMF auf Wikipedia-Artikeln angewendet Exercise 4: NMF-Merkmale der Wikipedia-Artikel Exercise 5: Rekonstruktion der Proben mittels NMF Exercise 6: NMF lernt interpretierbare Bestandteile Exercise 7: NMF lernt Themen von Dokumenten Exercise 8: Erkunde den LED-Ziffern-Datensatz Exercise 9: NMF lernt Bestandteile von Bildern Exercise 10: PCA lernt keine Bestandteile Exercise 11: Empfehlungssysteme mit NMF bauen Exercise 12: Welche Artikel sind ähnlich zu 'Cristiano Ronaldo'?Exercise 13: Musiker empfehlen, Teil I Exercise 14: Musiker empfehlen, Teil II Exercise 15: Abschließende Gedanken