Feature-Extraktion & Analyse: amzn_pros
amzn_pros_corp, amzn_cons_corp, goog_pros_corp und goog_cons_corp wurden bereits vorverarbeitet. Jetzt kannst du die Merkmale extrahieren, die du untersuchen möchtest. Da du den Bag-of-Words-Ansatz verwendest, entscheidest du dich, eine Bigram-TermDocumentMatrix für das Korpus der positiven Amazon-Bewertungen (amzn_pros_corp) zu erstellen. Daraus kannst du schnell eine wordcloud() bauen, um zu verstehen, welche Wendungen positiv mit der Arbeit bei Amazon verbunden werden.
Die folgende Funktion nutzt RWeka, um in Zweiergruppen zu tokenisieren, und wird in dieser Übung im Hintergrund verwendet.
tokenizer <- function(x) {
NGramTokenizer(x, Weka_control(min = 2, max = 2))
}
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Anleitung zur Übung
- Erstelle
amzn_p_tdmalsTermDocumentMatrixausamzn_pros_corp. Achte darauf,control = list(tokenize = tokenizer)hinzuzufügen, damit die Terme Bigrams sind. - Erstelle
amzn_p_tdm_mausamzn_p_tdmmit der Funktionas.matrix(). - Erstelle
amzn_p_freq, um die Termhäufigkeiten ausamzn_p_tdm_mzu erhalten. - Erstelle eine
wordcloud()mitnames(amzn_p_freq)als Wörtern,amzn_p_freqals deren Häufigkeiten sowiemax.words = 25undcolor = "blue"für die Darstellung.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create amzn_p_tdm
___ <- ___(
___,
___
)
# Create amzn_p_tdm_m
___ <- ___
# Create amzn_p_freq
___ <- ___
# Plot a word cloud using amzn_p_freq values
___(___)