NMF auf Wikipedia-Artikeln angewendet

Im Video hast du gesehen, wie NMF auf ein kleines Worthäufigkeit-Array angewendet wurde. Jetzt bist du dran: Wende NMF auf das tf-idf-Wortfrequenz-Array von Wikipedia-Artikeln an, das dir als CSR-Matrix namens articles vorliegt. Fitte das Modell und transformiere die Artikel. In der nächsten Übung schaust du dir das Ergebnis genauer an.

Diese Übung ist Teil des Kurses

<Kurs>Unsupervised Learning in Python</Kurs>

Übungsanweisungen

Importiere NMF aus sklearn.decomposition.
Erstelle eine NMF-Instanz namens model mit 6 Komponenten.
Fitte das Modell auf die Worthäufigkeitsdaten namens articles.
Verwende die Methode .transform() von model, um articles zu transformieren, und weise das Ergebnis nmf_features zu.
Gib nmf_features aus, um einen ersten Eindruck zu bekommen (mit .round(2) werden die Einträge auf zwei Dezimalstellen gerundet).

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import NMF
____

# Create an NMF instance: model
model = ____

# Fit the model to articles
____

# Transform the articles: nmf_features
nmf_features = ____

# Print the NMF features
print(nmf_features.round(2))

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Unsupervised Learning in Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Lerne, die zugrunde liegenden Gruppen (oder „Cluster“) in einem Datensatz zu entdecken. Am Ende dieses Kapitels clusterst du Unternehmen anhand ihrer Aktienkurse und unterscheidest verschiedene Arten, indem du ihre Messwerte clustert.

Exercise 1: Unüberwachtes Lernen Exercise 2: Wie viele Cluster?Exercise 3: Clustering von zweidimensionalen Punkten Exercise 4: Untersuche dein Clustering Exercise 5: Bewertung eines Clustering Exercise 6: Wie viele Getreide-Cluster?Exercise 7: Bewertung des Getreide-Clusterings Exercise 8: Merkmale transformieren für bessere Clusterings Exercise 9: Fischdaten fürs Clustering skalieren Exercise 10: Fischdaten clustern Exercise 11: Aktien mit KMeans clustern Exercise 12: Welche Aktien bewegen sich gemeinsam?

In diesem Kapitel lernst du zwei Unsupervised-Learning-Techniken zur Datenvisualisierung kennen: hierarchisches Clustering und t-SNE. Hierarchisches Clustering fasst Datenproben zu immer gröberen Clustern zusammen und erzeugt so eine Baumvisualisierung der resultierenden Cluster-Hierarchie. t-SNE projiziert die Datenproben in einen 2D-Raum, sodass ihre Nähe zueinander visuell dargestellt werden kann.

Exercise 1: Visualisierung von Hierarchien Exercise 2: Wie viele Zusammenführungen?Exercise 3: Hierarchisches Clustering der Getreidedaten Exercise 4: Hierarchien von Aktien Exercise 5: Cluster-Labels in der hierarchischen Clusterbildung Exercise 6: Welche Cluster liegen am nächsten?Exercise 7: Andere Linkage-Variante, anderes hierarchisches Clustering!Exercise 8: Clustering auf Zwischenstufen Exercise 9: Cluster-Labels extrahieren Exercise 10: t-SNE für zweidimensionale Repräsentationen Exercise 11: t-SNE-Visualisierung des Getreide-Datensatzes Exercise 12: Eine t-SNE-Karte des Aktienmarkts

Dimensionsreduktion fasst einen Datensatz anhand häufig auftretender Muster zusammen. In diesem Kapitel lernst du die grundlegendste Technik der Dimensionsreduktion kennen: die „Principal Component Analysis“ („PCA“). PCA wird oft vor dem Supervised Learning eingesetzt, um Modellleistung und Generalisierung zu verbessern. Es ist auch für Unsupervised Learning nützlich. Du wirst zum Beispiel eine Variante von PCA verwenden, mit der du Wikipedia-Artikel nach ihrem Inhalt clustern kannst!

Exercise 1: Visualisierung der PCA-Transformation Exercise 2: Korrelierte Daten in der Natur Exercise 3: Dekorrelation der Getreidemessungen mit PCA Exercise 4: Principal components (Hauptkomponenten)Exercise 5: Intrinsische Dimension Exercise 6: Die erste Hauptkomponente Exercise 7: Varianz der PCA-Merkmale Exercise 8: Intrinsische Dimension der Fischdaten Exercise 9: Dimensionsreduktion mit PCA Exercise 10: Dimensionsreduktion der Fischmessungen Exercise 11: Ein tf-idf-Worthäufigkeit-Array Exercise 12: Wikipedia clustern, Teil I Exercise 13: Wikipedia clustern, Teil II

In diesem Kapitel lernst du eine Technik der Dimensionsreduktion kennen, die „Non-negative Matrix Factorization“ („NMF“), die Proben als Kombinationen interpretierbarer Teile darstellt. So werden etwa Dokumente als Kombinationen von Themen ausgedrückt und Bilder anhand häufig auftretender visueller Muster. Außerdem lernst du, mit NMF Empfehlungssysteme zu bauen, die dir ähnliche Artikel zum Lesen vorschlagen oder Musik-Künstlerinnen und -Künstler empfehlen, die zu deinem Hörverhalten passen!

Exercise 1: Nichtnegative Matrixfaktorisierung (NMF)Exercise 2: Nichtnegative Daten Exercise 3: NMF auf Wikipedia-Artikeln angewendet

Aktuelle Übung

Exercise 4: NMF-Merkmale der Wikipedia-Artikel Exercise 5: Rekonstruktion der Proben mittels NMF Exercise 6: NMF lernt interpretierbare Bestandteile Exercise 7: NMF lernt Themen von Dokumenten Exercise 8: Erkunde den LED-Ziffern-Datensatz Exercise 9: NMF lernt Bestandteile von Bildern Exercise 10: PCA lernt keine Bestandteile Exercise 11: Empfehlungssysteme mit NMF bauen Exercise 12: Welche Artikel sind ähnlich zu 'Cristiano Ronaldo'?Exercise 13: Musiker empfehlen, Teil I Exercise 14: Musiker empfehlen, Teil II Exercise 15: Abschließende Gedanken