LoslegenKostenlos loslegen

NMF lernt Themen von Dokumenten

Im Video hast du gelernt: Wenn NMF auf Dokumente angewendet wird, entsprechen die Komponenten den Themen der Dokumente, und die NMF-Merkmale rekonstruieren die Dokumente aus diesen Themen. Überprüfe das selbst für das NMF-Modell, das du zuvor mit den Wikipedia-Artikeln erstellt hast. Zuvor hast du gesehen, dass der dritte NMF-Merkmalswert bei den Artikeln über die Schauspieler Anne Hathaway und Denzel Washington hoch war. Ermittle in dieser Übung das Thema der entsprechenden NMF-Komponente.

Das zuvor von dir erstellte NMF-Modell ist als model verfügbar, während words eine Liste der Wörter ist, welche die Spalten des Wortfrequenz-Arrays beschriften.

Wenn du fertig bist, nimm dir einen Moment, um das Thema zu erkennen, das die Artikel über Anne Hathaway und Denzel Washington gemeinsam haben!

Diese Übung ist Teil des Kurses

Unsupervised Learning in Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere pandas als pd.
  • Erstelle ein DataFrame components_df aus model.components_ und definiere columns=words, damit die Spalten mit den Wörtern beschriftet sind.
  • Gib components_df.shape aus, um die Dimensionen des DataFrames zu prüfen.
  • Verwende .iloc[] auf dem DataFrame components_df, um die Zeile 3 auszuwählen. Weise das Ergebnis component zu.
  • Rufe die Methode .nlargest() von component auf und gib das Ergebnis aus. So erhältst du die fünf Wörter mit den höchsten Werten für diese Komponente.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import pandas
import pandas as pd

# Create a DataFrame: components_df
components_df = ____

# Print the shape of the DataFrame
print(components_df.shape)

# Select row 3: component
component = ____

# Print result of nlargest
print(component.nlargest())
Code bearbeiten und ausführen