Feature-Extraktion & Analyse: amzn_pros

amzn_pros_corp, amzn_cons_corp, goog_pros_corp und goog_cons_corp wurden bereits vorverarbeitet. Jetzt kannst du die Merkmale extrahieren, die du untersuchen möchtest. Da du den Bag-of-Words-Ansatz verwendest, entscheidest du dich, eine Bigram-TermDocumentMatrix für das Korpus der positiven Amazon-Bewertungen (amzn_pros_corp) zu erstellen. Daraus kannst du schnell eine wordcloud() bauen, um zu verstehen, welche Wendungen positiv mit der Arbeit bei Amazon verbunden werden.

Die folgende Funktion nutzt RWeka, um in Zweiergruppen zu tokenisieren, und wird in dieser Übung im Hintergrund verwendet.

tokenizer <- function(x) {
  NGramTokenizer(x, Weka_control(min = 2, max = 2))
}

Diese Übung ist Teil des Kurses

<Kurs>Text Mining mit Bag-of-Words in R</Kurs>

Kurs ansehen

Übungsanweisungen

Erstelle amzn_p_tdm als TermDocumentMatrix aus amzn_pros_corp. Achte darauf, control = list(tokenize = tokenizer) hinzuzufügen, damit die Terme Bigrams sind.
Erstelle amzn_p_tdm_m aus amzn_p_tdm mit der Funktion as.matrix().
Erstelle amzn_p_freq, um die Termhäufigkeiten aus amzn_p_tdm_m zu erhalten.
Erstelle eine wordcloud() mit names(amzn_p_freq) als Wörtern, amzn_p_freq als deren Häufigkeiten sowie max.words = 25 und color = "blue" für die Darstellung.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create amzn_p_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_p_tdm_m
___ <- ___

# Create amzn_p_freq
___ <- ___

# Plot a word cloud using amzn_p_freq values
___(___)

Code bearbeiten und ausführen