LoslegenKostenlos loslegen

NMF lernt Themen von Dokumenten

Im Video hast du gelernt, dass bei der Anwendung von NMF auf Dokumente die Komponenten den Themen der Dokumente entsprechen und die NMF-Merkmale die Dokumente aus den Themen rekonstruieren. Probier das mal selbst aus für das NMF-Modell, das du vorhin mit den Wikipedia-Artikeln gebaut hast. Vorher hast du gesehen, dass der dritte NMF-Feature-Wert bei den Artikeln über die Schauspieler Anne Hathaway und Denzel Washington ziemlich hoch war. Identifiziere in dieser Übung das Thema der entsprechenden NMF-Komponente.

Das NMF-Modell, das du vorhin erstellt hast, findest du unter model. Unter words gibt's eine Liste mit den Wörtern, die die Spalten des Wortfrequenz-Arrays beschriften.

Wenn du fertig bist, nimm dir einen Moment Zeit, um herauszufinden, was die Artikel über Anne Hathaway und Denzel Washington gemeinsam haben!

Diese Übung ist Teil des Kurses

Unüberwachtes Lernen in Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere pandas als pd.
  • Erstelle einen DataFrame „ components_df ” aus „ model.components_ ” und setze „ columns=words ”, damit die Spalten mit den Wörtern beschriftet werden.
  • Druck „ components_df.shape “, um die Abmessungen des DataFrame zu überprüfen.
  • Verwende den Zugriff „ .iloc[] “ auf den DataFrame „ components_df “, um die Zeilen 3 auszuwählen. Weise das Ergebnis component zu.
  • Ruf die Methode „ .nlargest() “ von „ component “ auf und gib das Ergebnis aus. Das gibt dir die fünf Wörter mit den höchsten Werten für diese Komponente.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import pandas
import pandas as pd

# Create a DataFrame: components_df
components_df = ____

# Print the shape of the DataFrame
print(components_df.shape)

# Select row 3: component
component = ____

# Print result of nlargest
print(component.nlargest())
Code bearbeiten und ausführen