LDA-Ergebnisse überprüfen
Du hast ein Topic-Modell napoleon_model mit 5 Topics für die Sätze aus dem Buch Animal Farm entwickelt, die sich auf die Hauptfigur Napoleon beziehen. 5 lokale Autorinnen und Autoren haben die Top-Wörter und Top-Sätze je Topic überprüft und dir Themen (Themes) für jedes Topic geliefert.
Um deine Ergebnisse abzuschließen, bereite einige zusammenfassende Statistiken zu den Topics vor. Diese Kennzahlen präsentierst du gemeinsam mit den Themen deiner Chefin bzw. deinem Chef zur Durchsicht.
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit R
Anleitung zur Übung
- Extrahiere die
gamma-Matrix aus dem Topic-Modellnapoleon_model. - Verwende
dplyr-Funktionen, um ein Tibble mit dem Top-Topic in jedem Satz zu erstellen, genanntgrouped_gammas. - Nutze
grouped_gammas, um die Anzahl der Sätze zu zählen, die am ehesten zu jedem Topic passen. - Verwende
grouped_gammasund berechne den durchschnittlichen Gamma-Wert für jedes Topic.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Extract the gamma matrix
gamma_values <- tidy(___, matrix = ___)
# Create grouped gamma tibble
grouped_gammas <- gamma_values %>%
___(document) %>%
___(desc(gamma)) %>%
___(1) %>%
___(topic)
# Count (tally) by topic
grouped_gammas %>%
___(topic, sort=TRUE)
# Average topic weight for top topic for each sentence
grouped_gammas %>%
___(avg=mean(gamma)) %>%
___(desc(avg))