Feature-Extraktion & Analyse: amzn_cons

Du willst das nun dem Korpus amzn_cons_corp in einer weiteren Bigramm-TDM gegenüberstellen. Natürlich erwartest du, einige andere Phrasen in deiner Wortwolke zu sehen.

Auch hier verwendest du diese benutzerdefinierte Funktion, um die Bigramm-Features für die Visualisierung zu extrahieren:

tokenizer <- function(x) 
  NGramTokenizer(x, Weka_control(min = 2, max = 2))

Diese Übung ist Teil des Kurses

<Kurs>Text Mining mit Bag-of-Words in R</Kurs>

Kurs ansehen

Übungsanweisungen

Erstelle amzn_c_tdm, indem du amzn_cons_corp in eine TermDocumentMatrix konvertierst und die Bigramm-Funktion mit control = list(tokenize = tokenizer) einbindest.
Erstelle amzn_c_tdm_m als Matrixversion von amzn_c_tdm.
Erstelle amzn_c_freq, indem du mit rowSums() die Termhäufigkeiten aus amzn_c_tdm_m berechnest.
Erstelle eine wordcloud() mit names(amzn_c_freq) und den Werten amzn_c_freq. Verwende außerdem die Argumente max.words = 25 und color = "red".

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create amzn_c_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_c_tdm_m
___ <- ___

# Create amzn_c_freq
___ <- ___

# Plot a word cloud of negative Amazon bigrams
___

Code bearbeiten und ausführen