Clustering Wikipedia Teil I

Du hast im Video gesehen, dass „ TruncatedSVD “ PCA für spärliche Arrays im csr_matrix-Format, wie z. B. Wortfrequenz-Arrays, durchführen kann. Kombiniere dein Wissen über TruncatedSVD und k-means, um ein paar beliebte Seiten aus Wikipedia zu clustern. In dieser Übung baust du die Pipeline auf. In der nächsten Übung wirst du das Ganze auf die Wortfrequenz-Tabelle einiger Wikipedia-Artikel anwenden.

Erstell ein Pipeline-Objekt, das aus einem TruncatedSVD gefolgt von KMeans besteht. (Diesmal haben wir die Wortfrequenzmatrix schon für dich berechnet, sodass du keinen TfidfVectorizer brauchst).

Der Wikipedia-Datensatz, mit dem du arbeiten wirst, ist hier zu finden.

Diese Übung ist Teil des Kurses

Unüberwachtes Lernen in Python

Anleitung zur Übung

Importieren:
- TruncatedSVD von sklearn.decomposition.
- KMeans von sklearn.cluster.
- make_pipeline von sklearn.pipeline.
Erstell eine „ TruncatedSVD “-Instanz namens „ svd “ mit „ n_components=50 “.
Erstell eine „ KMeans “-Instanz namens „ kmeans “ mit „ n_clusters=6 “.
Erstell eine Pipeline namens „ pipeline ”, die aus „ svd ” und „ kmeans ” besteht.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Perform the necessary imports
from ____ import ____
from ____ import ____
from ____ import ____

# Create a TruncatedSVD instance: svd
svd = ____

# Create a KMeans instance: kmeans
kmeans = ____

# Create a pipeline: pipeline
pipeline = ____

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Unüberwachtes Lernen in Python

Mittlere SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Lerne, wie du die Gruppen (oder „Cluster“) in einem Datensatz findest. Am Ende dieses Kapitels wirst du in der Lage sein, Unternehmen anhand ihrer Aktienkurse zu gruppieren und verschiedene Arten durch Clustering ihrer Messwerte zu unterscheiden.

Exercise 1: Unüberwachtes Lernen Exercise 2: Wie viele Cluster?Exercise 3: 2D-Punkte gruppieren Exercise 4: Überprüfe dein Clustering Exercise 5: Clustering bewerten Exercise 6: Wie viele Getreidebüschel?Exercise 7: Die Getreideklumpen bewerten Exercise 8: Transformationsfunktionen für bessere Clusterings Exercise 9: Skalierung von Fischdaten für die Clusterbildung Exercise 10: Die Fischdaten gruppieren Exercise 11: Aktien mit KMeans gruppieren Exercise 12: Welche Aktien bewegen sich zusammen?

In diesem Kapitel lernst du zwei Techniken des unüberwachten Lernens für die Datenvisualisierung kennen: hierarchisches Clustering und t-SNE. Beim hierarchischen Clustering werden die Datenproben zu immer gröberen Clustern zusammengefasst, was eine Baumdarstellung der resultierenden Clusterhierarchie ergibt. t-SNE ordnet die Datenproben in einem 2D-Raum an, sodass die Nähe der Proben zueinander sichtbar wird.

Exercise 1: Hierarchien anschaulich machen Exercise 2: Wie viele Zusammenführungen?Exercise 3: Hierarchisches Clustering der Korndaten Exercise 4: Aktienhierarchien Exercise 5: Cluster-Labels im hierarchischen Clustering Exercise 6: Welche Cluster sind am nächsten?Exercise 7: Unterschiedliche Verknüpfungen, unterschiedliche hierarchische Clusterbildung!Exercise 8: Zwischencluster Exercise 9: Die Cluster-Labels extrahieren Exercise 10: t-SNE für zweidimensionale Karten Exercise 11: t-SNE-Visualisierung des Korndatensatzes Exercise 12: Eine t-SNE-Karte des Aktienmarktes

Dimensionsreduktion fasst einen Datensatz anhand seiner häufig vorkommenden Muster zusammen. In diesem Kapitel lernst du die grundlegendste Technik zur Dimensionsreduktion kennen, die „Hauptkomponentenanalyse“ (PCA). PCA wird oft vor dem überwachten Lernen eingesetzt, um die Modellleistung und Generalisierung zu verbessern. Es kann auch beim unüberwachten Lernen nützlich sein. Du kannst zum Beispiel eine Variante der PCA nutzen, um Wikipedia-Artikel nach ihrem Inhalt zu gruppieren!

Exercise 1: Visualisierung der PCA-Transformation Exercise 2: Korrelierte Daten in der Natur Exercise 3: Entkorrelierung der Kornmessungen mit PCA Exercise 4: Hauptkomponenten Exercise 5: Eigene Dimension Exercise 6: Die erste Hauptkomponente Exercise 7: Varianz der PCA-Merkmale Exercise 8: Eigenes Merkmal der Fischdaten Exercise 9: Dimensionsreduktion mit PCA Exercise 10: Reduzierung der Dimensionen der Fischmessungen Exercise 11: Ein TF-IDF-Wortfrequenz-Array Exercise 12: Clustering Wikipedia Teil I

Aktuelle Übung

Exercise 13: Clustering Wikipedia Teil II

In diesem Kapitel lernst du eine Technik zur Dimensionsreduktion namens „Nicht-negative Matrixfaktorisierung“ (NMF) kennen, die Samples als Kombinationen aus interpretierbaren Teilen ausdrückt. Zum Beispiel werden Dokumente als Kombinationen von Themen und Bilder anhand von häufig vorkommenden visuellen Mustern dargestellt. Außerdem lernst du, wie du mit NMF Empfehlungssysteme aufbauen kannst, die dir ähnliche Artikel zum Lesen oder Musiker, die zu deinem Musikgeschmack passen, vorschlagen!

Exercise 1: Nicht-negative Matrixfaktorisierung (NMF)Exercise 2: Nicht negative Daten Exercise 3: NMF auf Wikipedia-Artikel angewendet Exercise 4: NMF-Features der Wikipedia-Artikel Exercise 5: NMF rekonstruiert Proben Exercise 6: NMF lernt interpretierbare Teile Exercise 7: NMF lernt Themen von Dokumenten Exercise 8: Entdecke den Datensatz „LED-Ziffern“Exercise 9: NMF lernt die Teile von Bildern Exercise 10: PCA lernt keine Teile Exercise 11: Empfehlungssysteme mit NMF aufbauen Exercise 12: Welche Artikel sind ähnlich wie „Cristiano Ronaldo“?Exercise 13: Empfehlungen für Musiker Teil I Exercise 14: Empfehlungen für Musiker Teil II Exercise 15: Abschließende Gedanken