NMF lernt Themen von Dokumenten
Im Video hast du gelernt, dass bei der Anwendung von NMF auf Dokumente die Komponenten den Themen der Dokumente entsprechen und die NMF-Merkmale die Dokumente aus den Themen rekonstruieren. Probier das mal selbst aus für das NMF-Modell, das du vorhin mit den Wikipedia-Artikeln gebaut hast. Vorher hast du gesehen, dass der dritte NMF-Feature-Wert bei den Artikeln über die Schauspieler Anne Hathaway und Denzel Washington ziemlich hoch war. Identifiziere in dieser Übung das Thema der entsprechenden NMF-Komponente.
Das NMF-Modell, das du vorhin erstellt hast, findest du unter model
. Unter words
gibt's eine Liste mit den Wörtern, die die Spalten des Wortfrequenz-Arrays beschriften.
Wenn du fertig bist, nimm dir einen Moment Zeit, um herauszufinden, was die Artikel über Anne Hathaway und Denzel Washington gemeinsam haben!
Diese Übung ist Teil des Kurses
Unüberwachtes Lernen in Python
Anleitung zur Übung
- Importiere
pandas
alspd
. - Erstelle einen DataFrame „
components_df
” aus „model.components_
” und setze „columns=words
”, damit die Spalten mit den Wörtern beschriftet werden. - Druck „
components_df.shape
“, um die Abmessungen des DataFrame zu überprüfen. - Verwende den Zugriff „
.iloc[]
“ auf den DataFrame „components_df
“, um die Zeilen3
auszuwählen. Weise das Ergebniscomponent
zu. - Ruf die Methode „
.nlargest()
“ von „component
“ auf und gib das Ergebnis aus. Das gibt dir die fünf Wörter mit den höchsten Werten für diese Komponente.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import pandas
import pandas as pd
# Create a DataFrame: components_df
components_df = ____
# Print the shape of the DataFrame
print(components_df.shape)
# Select row 3: component
component = ____
# Print result of nlargest
print(component.nlargest())