NMF lernt Themen von Dokumenten
Im Video hast du gelernt: Wenn NMF auf Dokumente angewendet wird, entsprechen die Komponenten den Themen der Dokumente, und die NMF-Merkmale rekonstruieren die Dokumente aus diesen Themen. Überprüfe das selbst für das NMF-Modell, das du zuvor mit den Wikipedia-Artikeln erstellt hast. Zuvor hast du gesehen, dass der dritte NMF-Merkmalswert bei den Artikeln über die Schauspieler Anne Hathaway und Denzel Washington hoch war. Ermittle in dieser Übung das Thema der entsprechenden NMF-Komponente.
Das zuvor von dir erstellte NMF-Modell ist als model verfügbar, während words eine Liste der Wörter ist, welche die Spalten des Wortfrequenz-Arrays beschriften.
Wenn du fertig bist, nimm dir einen Moment, um das Thema zu erkennen, das die Artikel über Anne Hathaway und Denzel Washington gemeinsam haben!
Diese Übung ist Teil des Kurses
Unsupervised Learning in Python
Anleitung zur Übung
- Importiere
pandasalspd. - Erstelle ein DataFrame
components_dfausmodel.components_und definierecolumns=words, damit die Spalten mit den Wörtern beschriftet sind. - Gib
components_df.shapeaus, um die Dimensionen des DataFrames zu prüfen. - Verwende
.iloc[]auf dem DataFramecomponents_df, um die Zeile3auszuwählen. Weise das Ergebniscomponentzu. - Rufe die Methode
.nlargest()voncomponentauf und gib das Ergebnis aus. So erhältst du die fünf Wörter mit den höchsten Werten für diese Komponente.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import pandas
import pandas as pd
# Create a DataFrame: components_df
components_df = ____
# Print the shape of the DataFrame
print(components_df.shape)
# Select row 3: component
component = ____
# Print result of nlargest
print(component.nlargest())