NMF lernt Themen von Dokumenten

Im Video hast du gelernt: Wenn NMF auf Dokumente angewendet wird, entsprechen die Komponenten den Themen der Dokumente, und die NMF-Merkmale rekonstruieren die Dokumente aus diesen Themen. Überprüfe das selbst für das NMF-Modell, das du zuvor mit den Wikipedia-Artikeln erstellt hast. Zuvor hast du gesehen, dass der dritte NMF-Merkmalswert bei den Artikeln über die Schauspieler Anne Hathaway und Denzel Washington hoch war. Ermittle in dieser Übung das Thema der entsprechenden NMF-Komponente.

Das zuvor von dir erstellte NMF-Modell ist als model verfügbar, während words eine Liste der Wörter ist, welche die Spalten des Wortfrequenz-Arrays beschriften.

Wenn du fertig bist, nimm dir einen Moment, um das Thema zu erkennen, das die Artikel über Anne Hathaway und Denzel Washington gemeinsam haben!

Diese Übung ist Teil des Kurses

<Kurs>Unsupervised Learning in Python</Kurs>

Übungsanweisungen

Importiere pandas als pd.
Erstelle ein DataFrame components_df aus model.components_ und definiere columns=words, damit die Spalten mit den Wörtern beschriftet sind.
Gib components_df.shape aus, um die Dimensionen des DataFrames zu prüfen.
Verwende .iloc[] auf dem DataFrame components_df, um die Zeile 3 auszuwählen. Weise das Ergebnis component zu.
Rufe die Methode .nlargest() von component auf und gib das Ergebnis aus. So erhältst du die fünf Wörter mit den höchsten Werten für diese Komponente.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import pandas
import pandas as pd

# Create a DataFrame: components_df
components_df = ____

# Print the shape of the DataFrame
print(components_df.shape)

# Select row 3: component
component = ____

# Print result of nlargest
print(component.nlargest())

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Unsupervised Learning in Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

Kurs kostenlos starten

Learn how to discover the underlying groups (or "clusters") in a dataset. By the end of this chapter, you'll be clustering companies using their stock market prices, and distinguishing different species by clustering their measurements.

Exercise 1: Unsupervised Learning Exercise 2: How many clusters?Exercise 3: Clustering 2D points Exercise 4: Inspect your clustering Exercise 5: Evaluating a clustering Exercise 6: How many clusters of grain?Exercise 7: Evaluating the grain clustering Exercise 8: Transforming features for better clusterings Exercise 9: Scaling fish data for clustering Exercise 10: Clustering the fish data Exercise 11: Clustering stocks using KMeans Exercise 12: Which stocks move together?

In this chapter, you'll learn about two unsupervised learning techniques for data visualization, hierarchical clustering and t-SNE. Hierarchical clustering merges the data samples into ever-coarser clusters, yielding a tree visualization of the resulting cluster hierarchy. t-SNE maps the data samples into 2d space so that the proximity of the samples to one another can be visualized.

Exercise 1: Visualizing hierarchies Exercise 2: How many merges?Exercise 3: Hierarchical clustering of the grain data Exercise 4: Hierarchies of stocks Exercise 5: Cluster labels in hierarchical clustering Exercise 6: Which clusters are closest?Exercise 7: Different linkage, different hierarchical clustering!Exercise 8: Intermediate clusterings Exercise 9: Extracting the cluster labels Exercise 10: t-SNE for 2-dimensional maps Exercise 11: t-SNE visualization of grain dataset Exercise 12: A t-SNE map of the stock market

Dimension reduction summarizes a dataset using its common occuring patterns. In this chapter, you'll learn about the most fundamental of dimension reduction techniques, "Principal Component Analysis" ("PCA"). PCA is often used before supervised learning to improve model performance and generalization. It can also be useful for unsupervised learning. For example, you'll employ a variant of PCA will allow you to cluster Wikipedia articles by their content!

Exercise 1: Visualizing the PCA transformation Exercise 2: Correlated data in nature Exercise 3: Decorrelating the grain measurements with PCA Exercise 4: Principal components Exercise 5: Intrinsic dimension Exercise 6: The first principal component Exercise 7: Variance of the PCA features Exercise 8: Intrinsic dimension of the fish data Exercise 9: Dimension reduction with PCA Exercise 10: Dimension reduction of the fish measurements Exercise 11: A tf-idf word-frequency array Exercise 12: Clustering Wikipedia part I Exercise 13: Clustering Wikipedia part II

In this chapter, you'll learn about a dimension reduction technique called "Non-negative matrix factorization" ("NMF") that expresses samples as combinations of interpretable parts. For example, it expresses documents as combinations of topics, and images in terms of commonly occurring visual patterns. You'll also learn to use NMF to build recommender systems that can find you similar articles to read, or musical artists that match your listening history!

Exercise 1: Nichtnegative Matrixfaktorisierung (NMF)Exercise 2: Nichtnegative Daten Exercise 3: NMF auf Wikipedia-Artikeln angewendet Exercise 4: NMF-Merkmale der Wikipedia-Artikel Exercise 5: Rekonstruktion der Proben mittels NMF Exercise 6: NMF lernt interpretierbare Bestandteile Exercise 7: NMF lernt Themen von Dokumenten

Aktuelle Übung

Exercise 8: Erkunde den LED-Ziffern-Datensatz Exercise 9: NMF lernt Bestandteile von Bildern Exercise 10: PCA lernt keine Bestandteile Exercise 11: Empfehlungssysteme mit NMF bauen Exercise 12: Welche Artikel sind ähnlich zu 'Cristiano Ronaldo'?Exercise 13: Musiker empfehlen, Teil I Exercise 14: Musiker empfehlen, Teil II Exercise 15: Abschließende Gedanken