LoslegenKostenlos loslegen

Feature-Extraktion & Analyse: amzn_cons

Du willst das nun dem Korpus amzn_cons_corp in einer weiteren Bigramm-TDM gegenüberstellen. Natürlich erwartest du, einige andere Phrasen in deiner Wortwolke zu sehen.

Auch hier verwendest du diese benutzerdefinierte Funktion, um die Bigramm-Features für die Visualisierung zu extrahieren:

tokenizer <- function(x) 
  NGramTokenizer(x, Weka_control(min = 2, max = 2))

Diese Übung ist Teil des Kurses

Text Mining mit Bag-of-Words in R

Kurs anzeigen

Anleitung zur Übung

  • Erstelle amzn_c_tdm, indem du amzn_cons_corp in eine TermDocumentMatrix konvertierst und die Bigramm-Funktion mit control = list(tokenize = tokenizer) einbindest.
  • Erstelle amzn_c_tdm_m als Matrixversion von amzn_c_tdm.
  • Erstelle amzn_c_freq, indem du mit rowSums() die Termhäufigkeiten aus amzn_c_tdm_m berechnest.
  • Erstelle eine wordcloud() mit names(amzn_c_freq) und den Werten amzn_c_freq. Verwende außerdem die Argumente max.words = 25 und color = "red".

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create amzn_c_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_c_tdm_m
___ <- ___

# Create amzn_c_freq
___ <- ___

# Plot a word cloud of negative Amazon bigrams
___
Code bearbeiten und ausführen