NMF lernt die Themen der Dokumente
Im Video hast du gelernt, dass, wenn NMF auf Dokumente angewendet wird, die Komponenten den Themen der Dokumente entsprechen und die NMF Merkmale die Dokumente aus den Themen rekonstruieren. Überprüfe dies selbst für das Modell NMF, das du zuvor anhand der Wikipedia-Artikel gebaut hast. Zuvor hast du gesehen, dass der 3. NMF Merkmalswert bei den Artikeln über die Schauspieler Anne Hathaway und Denzel Washington hoch war. In dieser Übung identifizierst du das Thema der entsprechenden NMF Komponente.
Das Modell NMF, das du zuvor erstellt hast, ist als model
verfügbar, während words
eine Liste der Wörter ist, die die Spalten des Wort-Häufigkeits-Arrays beschriften.
Wenn du fertig bist, nimm dir einen Moment Zeit, um das Thema zu erkennen, das die Artikel über Anne Hathaway und Denzel Washington gemeinsam haben!
Diese Übung ist Teil des Kurses
Unüberwachtes Lernen in Python
Anleitung zur Übung
- Importiere
pandas
alspd
. - Erstelle einen DataFrame
components_df
ausmodel.components_
und stellecolumns=words
so ein, dass die Spalten mit den Wörtern beschriftet sind. - Drucke
components_df.shape
, um die Abmessungen des DataFrame zu überprüfen. - Benutze den
.iloc[]
Accessor auf dem DataFramecomponents_df
, um die Zeile3
auszuwählen. Weise das Ergebniscomponent
zu. - Rufe die Methode
.nlargest()
voncomponent
auf und drucke das Ergebnis aus. So erhältst du die fünf Wörter mit den höchsten Werten für diese Komponente.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Import pandas
import pandas as pd
# Create a DataFrame: components_df
components_df = ____
# Print the shape of the DataFrame
print(components_df.shape)
# Select row 3: component
component = ____
# Print result of nlargest
print(component.nlargest())