LoslegenKostenlos loslegen

LDA-Übung

Du möchtest die häufigsten Themen rund um die Figur Napoleon in deinem neuen Lieblingsbuch, Animal Farm, untersuchen. Napoleon ist ein Schwein, das seine Kameraden davon überzeugt, ihre menschlichen Anführer zu stürzen. Schließlich wird er selbst der neue Anführer von Animal Farm.

Du hast alle Sätze extrahiert, in denen Napoleons Name erwähnt wird (pig_sentences), und daraus eine tokenisierte Version mit entfernten Stoppwörtern und durchgeführtem Stemming erstellt (pig_tokens). Führe LDA auf diesen Sätzen durch und sieh dir die wichtigsten Wörter an, die einigen der Topics zugeordnet sind.

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit R

Kurs anzeigen

Anleitung zur Übung

  • Führe LDA auf pig_matrix durch und identifiziere 10 Topics. Setze für die Reproduzierbarkeit den Zufalls-Seed auf 1111.
  • Extrahiere die Beta-Matrix aus den Ergebnissen.
  • Filtere die Beta-Matrix auf Topic 2 und sortiere die Werte in absteigender Reihenfolge der Beta-Werte.
  • Filtere die Beta-Matrix auf Topic 3 und sortiere die Werte in absteigender Reihenfolge der Beta-Werte.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

library(topicmodels)
# Perform Topic Modeling
sentence_lda <-
  ___(___, k = ___, method = 'Gibbs', control = list(seed = ___))
# Extract the beta matrix 
sentence_betas <- ___(sentence_lda, matrix = "___")

# Topic #2
sentence_betas %>%
  ___(topic == ___) %>%
  arrange(-___)
# Topic #3
sentence_betas %>%
  ___(topic == ___) %>%
  arrange(-___)
Code bearbeiten und ausführen