NMF lernt Themen von Dokumenten
Im Video hast du gelernt, dass bei der Anwendung von NMF auf Dokumente die Komponenten den Themen der Dokumente entsprechen und die NMF-Merkmale die Dokumente aus den Themen rekonstruieren. Probier das mal selbst aus für das NMF-Modell, das du vorhin mit den Wikipedia-Artikeln gebaut hast. Vorher hast du gesehen, dass der dritte NMF-Feature-Wert bei den Artikeln über die Schauspieler Anne Hathaway und Denzel Washington ziemlich hoch war. Identifiziere in dieser Übung das Thema der entsprechenden NMF-Komponente.
Das NMF-Modell, das du vorhin erstellt hast, findest du unter model. Unter words gibt's eine Liste mit den Wörtern, die die Spalten des Wortfrequenz-Arrays beschriften.
Wenn du fertig bist, nimm dir einen Moment Zeit, um herauszufinden, was die Artikel über Anne Hathaway und Denzel Washington gemeinsam haben!
Diese Übung ist Teil des Kurses
Unüberwachtes Lernen in Python
Anleitung zur Übung
- Importiere
pandasalspd. - Erstelle einen DataFrame „
components_df” aus „model.components_” und setze „columns=words”, damit die Spalten mit den Wörtern beschriftet werden. - Druck „
components_df.shape“, um die Abmessungen des DataFrame zu überprüfen. - Verwende den Zugriff „
.iloc[]“ auf den DataFrame „components_df“, um die Zeilen3auszuwählen. Weise das Ergebniscomponentzu. - Ruf die Methode „
.nlargest()“ von „component“ auf und gib das Ergebnis aus. Das gibt dir die fünf Wörter mit den höchsten Werten für diese Komponente.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import pandas
import pandas as pd
# Create a DataFrame: components_df
components_df = ____
# Print the shape of the DataFrame
print(components_df.shape)
# Select row 3: component
component = ____
# Print result of nlargest
print(component.nlargest())