Feature-Extraktion & Analyse: amzn_cons
Du willst das nun dem Korpus amzn_cons_corp in einer weiteren Bigramm-TDM gegenüberstellen. Natürlich erwartest du, einige andere Phrasen in deiner Wortwolke zu sehen.
Auch hier verwendest du diese benutzerdefinierte Funktion, um die Bigramm-Features für die Visualisierung zu extrahieren:
tokenizer <- function(x)
NGramTokenizer(x, Weka_control(min = 2, max = 2))
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Anleitung zur Übung
- Erstelle
amzn_c_tdm, indem duamzn_cons_corpin eineTermDocumentMatrixkonvertierst und die Bigramm-Funktion mitcontrol = list(tokenize = tokenizer)einbindest. - Erstelle
amzn_c_tdm_mals Matrixversion vonamzn_c_tdm. - Erstelle
amzn_c_freq, indem du mitrowSums()die Termhäufigkeiten ausamzn_c_tdm_mberechnest. - Erstelle eine
wordcloud()mitnames(amzn_c_freq)und den Wertenamzn_c_freq. Verwende außerdem die Argumentemax.words = 25undcolor = "red".
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create amzn_c_tdm
___ <- ___(
___,
___
)
# Create amzn_c_tdm_m
___ <- ___
# Create amzn_c_freq
___ <- ___
# Plot a word cloud of negative Amazon bigrams
___