LoslegenKostenlos loslegen

LDA-Ergebnisse überprüfen

Du hast ein Topic-Modell napoleon_model mit 5 Topics für die Sätze aus dem Buch Animal Farm entwickelt, die sich auf die Hauptfigur Napoleon beziehen. 5 lokale Autorinnen und Autoren haben die Top-Wörter und Top-Sätze je Topic überprüft und dir Themen (Themes) für jedes Topic geliefert.

Um deine Ergebnisse abzuschließen, bereite einige zusammenfassende Statistiken zu den Topics vor. Diese Kennzahlen präsentierst du gemeinsam mit den Themen deiner Chefin bzw. deinem Chef zur Durchsicht.

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit R

Kurs anzeigen

Anleitung zur Übung

  • Extrahiere die gamma-Matrix aus dem Topic-Modell napoleon_model.
  • Verwende dplyr-Funktionen, um ein Tibble mit dem Top-Topic in jedem Satz zu erstellen, genannt grouped_gammas.
  • Nutze grouped_gammas, um die Anzahl der Sätze zu zählen, die am ehesten zu jedem Topic passen.
  • Verwende grouped_gammas und berechne den durchschnittlichen Gamma-Wert für jedes Topic.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Extract the gamma matrix 
gamma_values <- tidy(___, matrix = ___)
# Create grouped gamma tibble
grouped_gammas <- gamma_values %>%
  ___(document) %>%
  ___(desc(gamma)) %>%
  ___(1) %>%
  ___(topic)
# Count (tally) by topic
grouped_gammas %>% 
  ___(topic, sort=TRUE)
# Average topic weight for top topic for each sentence
grouped_gammas %>% 
  ___(avg=mean(gamma)) %>%
  ___(desc(avg))
Code bearbeiten und ausführen