Skalierung von Fischdaten für die Clusterbildung

Du bekommst ein Array „ samples “, das die Maße von Fischen angibt. Jede Zeile steht für einen einzelnen Fisch. Die Maße, wie zum Beispiel das Gewicht in Gramm, die Länge in Zentimetern und das Verhältnis von Höhe zu Länge in Prozent, haben ganz unterschiedliche Maßstäbe. Um diese Daten effektiv zu gruppieren, musst du diese Merkmale erst standardisieren. In dieser Übung baust du eine Pipeline, um die Daten zu standardisieren und zu gruppieren.

Diese Daten zu den Fischgrößen kommen aus dem Journal of Statistics Education.

Diese Übung ist Teil des Kurses

Unüberwachtes Lernen in Python

Anleitung zur Übung

Importieren:
- make_pipeline von sklearn.pipeline.
- StandardScaler von sklearn.preprocessing.
- KMeans von sklearn.cluster.
Erstelle eine Instanz von StandardScaler mit dem Namen scaler.
Erstell eine Instanz von „ KMeans ” mit „ 4 ”-Clustern namens „ kmeans ”.
Erstell eine Pipeline namens „ pipeline “, die „ scaler “ und „ kmeans “ miteinander verbindet. Dazu musst du sie einfach als Argumente an „ make_pipeline() “ übergeben.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____

# Create scaler: scaler
scaler = ____

# Create KMeans instance: kmeans
kmeans = ____

# Create pipeline: pipeline
pipeline = ____

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Unüberwachtes Lernen in Python

Mittlere SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Lerne, wie du die Gruppen (oder „Cluster“) in einem Datensatz findest. Am Ende dieses Kapitels wirst du in der Lage sein, Unternehmen anhand ihrer Aktienkurse zu gruppieren und verschiedene Arten durch Clustering ihrer Messwerte zu unterscheiden.

Exercise 1: Unüberwachtes Lernen Exercise 2: Wie viele Cluster?Exercise 3: 2D-Punkte gruppieren Exercise 4: Überprüfe dein Clustering Exercise 5: Clustering bewerten Exercise 6: Wie viele Getreidebüschel?Exercise 7: Die Getreideklumpen bewerten Exercise 8: Transformationsfunktionen für bessere Clusterings Exercise 9: Skalierung von Fischdaten für die Clusterbildung

Aktuelle Übung

Exercise 10: Die Fischdaten gruppieren Exercise 11: Aktien mit KMeans gruppieren Exercise 12: Welche Aktien bewegen sich zusammen?

In diesem Kapitel lernst du zwei Techniken des unüberwachten Lernens für die Datenvisualisierung kennen: hierarchisches Clustering und t-SNE. Beim hierarchischen Clustering werden die Datenproben zu immer gröberen Clustern zusammengefasst, was eine Baumdarstellung der resultierenden Clusterhierarchie ergibt. t-SNE ordnet die Datenproben in einem 2D-Raum an, sodass die Nähe der Proben zueinander sichtbar wird.

Exercise 1: Hierarchien anschaulich machen Exercise 2: Wie viele Zusammenführungen?Exercise 3: Hierarchisches Clustering der Korndaten Exercise 4: Aktienhierarchien Exercise 5: Cluster-Labels im hierarchischen Clustering Exercise 6: Welche Cluster sind am nächsten?Exercise 7: Unterschiedliche Verknüpfungen, unterschiedliche hierarchische Clusterbildung!Exercise 8: Zwischencluster Exercise 9: Die Cluster-Labels extrahieren Exercise 10: t-SNE für zweidimensionale Karten Exercise 11: t-SNE-Visualisierung des Korndatensatzes Exercise 12: Eine t-SNE-Karte des Aktienmarktes

Dimensionsreduktion fasst einen Datensatz anhand seiner häufig vorkommenden Muster zusammen. In diesem Kapitel lernst du die grundlegendste Technik zur Dimensionsreduktion kennen, die „Hauptkomponentenanalyse“ (PCA). PCA wird oft vor dem überwachten Lernen eingesetzt, um die Modellleistung und Generalisierung zu verbessern. Es kann auch beim unüberwachten Lernen nützlich sein. Du kannst zum Beispiel eine Variante der PCA nutzen, um Wikipedia-Artikel nach ihrem Inhalt zu gruppieren!

Exercise 1: Visualisierung der PCA-Transformation Exercise 2: Korrelierte Daten in der Natur Exercise 3: Entkorrelierung der Kornmessungen mit PCA Exercise 4: Hauptkomponenten Exercise 5: Eigene Dimension Exercise 6: Die erste Hauptkomponente Exercise 7: Varianz der PCA-Merkmale Exercise 8: Eigenes Merkmal der Fischdaten Exercise 9: Dimensionsreduktion mit PCA Exercise 10: Reduzierung der Dimensionen der Fischmessungen Exercise 11: Ein TF-IDF-Wortfrequenz-Array Exercise 12: Clustering Wikipedia Teil I Exercise 13: Clustering Wikipedia Teil II

In diesem Kapitel lernst du eine Technik zur Dimensionsreduktion namens „Nicht-negative Matrixfaktorisierung“ (NMF) kennen, die Samples als Kombinationen aus interpretierbaren Teilen ausdrückt. Zum Beispiel werden Dokumente als Kombinationen von Themen und Bilder anhand von häufig vorkommenden visuellen Mustern dargestellt. Außerdem lernst du, wie du mit NMF Empfehlungssysteme aufbauen kannst, die dir ähnliche Artikel zum Lesen oder Musiker, die zu deinem Musikgeschmack passen, vorschlagen!

Exercise 1: Nicht-negative Matrixfaktorisierung (NMF)Exercise 2: Nicht negative Daten Exercise 3: NMF auf Wikipedia-Artikel angewendet Exercise 4: NMF-Features der Wikipedia-Artikel Exercise 5: NMF rekonstruiert Proben Exercise 6: NMF lernt interpretierbare Teile Exercise 7: NMF lernt Themen von Dokumenten Exercise 8: Entdecke den Datensatz „LED-Ziffern“Exercise 9: NMF lernt die Teile von Bildern Exercise 10: PCA lernt keine Teile Exercise 11: Empfehlungssysteme mit NMF aufbauen Exercise 12: Welche Artikel sind ähnlich wie „Cristiano Ronaldo“?Exercise 13: Empfehlungen für Musiker Teil I Exercise 14: Empfehlungen für Musiker Teil II Exercise 15: Abschließende Gedanken