LDA-Ergebnisse überprüfen

Du hast ein Topic-Modell napoleon_model mit 5 Topics für die Sätze aus dem Buch Animal Farm entwickelt, die sich auf die Hauptfigur Napoleon beziehen. 5 lokale Autorinnen und Autoren haben die Top-Wörter und Top-Sätze je Topic überprüft und dir Themen (Themes) für jedes Topic geliefert.

Um deine Ergebnisse abzuschließen, bereite einige zusammenfassende Statistiken zu den Topics vor. Diese Kennzahlen präsentierst du gemeinsam mit den Themen deiner Chefin bzw. deinem Chef zur Durchsicht.

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit R

Kurs anzeigen

Anleitung zur Übung

Extrahiere die gamma-Matrix aus dem Topic-Modell napoleon_model.
Verwende dplyr-Funktionen, um ein Tibble mit dem Top-Topic in jedem Satz zu erstellen, genannt grouped_gammas.
Nutze grouped_gammas, um die Anzahl der Sätze zu zählen, die am ehesten zu jedem Topic passen.
Verwende grouped_gammas und berechne den durchschnittlichen Gamma-Wert für jedes Topic.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Extract the gamma matrix 
gamma_values <- tidy(___, matrix = ___)
# Create grouped gamma tibble
grouped_gammas <- gamma_values %>%
  ___(document) %>%
  ___(desc(gamma)) %>%
  ___(1) %>%
  ___(topic)
# Count (tally) by topic
grouped_gammas %>% 
  ___(topic, sort=TRUE)
# Average topic weight for top topic for each sentence
grouped_gammas %>% 
  ___(avg=mean(gamma)) %>%
  ___(desc(avg))

Code bearbeiten und ausführen

Einführung in Natural Language Processing mit R

Mittlere SchwierigkeitSchwierigkeitsgrad

4.8+

33 reviews

In Kapitel 4 behandeln wir zwei feste Größen des Natural Language Processing: Sentiment-Analyse und Word Embeddings. Diese beiden Analysetechniken gehören für alle, die die Grundlagen der Textanalyse lernen, einfach dazu. Außerdem erfährst du kurz etwas über BERT, Part-of-Speech-Tagging und Named Entity Recognition. In diesem Kurs wurden fast 15 verschiedene Analysetechniken abgedeckt, daher endet Kapitel 4 mit einer Zusammenfassung all der großartigen Techniken, die du in diesem Kurs kennenlernen wirst.

Exercise 1: Sentimentanalyse Exercise 2: tidytext-Lexika Exercise 3: Sentiment-Scores Exercise 4: Sentiment und Emotion Exercise 5: Wort-Embeddings Exercise 6: h2o-Übung Exercise 7: word2vec Exercise 8: Zusätzliche NLP-Analysen Exercise 9: Methoden wiederholen #1 Exercise 10: Methoden wiederholen #2 Exercise 11: Fazit