LoslegenKostenlos loslegen

Feature-Extraktion & Analyse: amzn_pros

amzn_pros_corp, amzn_cons_corp, goog_pros_corp und goog_cons_corp wurden bereits vorverarbeitet. Jetzt kannst du die Merkmale extrahieren, die du untersuchen möchtest. Da du den Bag-of-Words-Ansatz verwendest, entscheidest du dich, eine Bigram-TermDocumentMatrix für das Korpus der positiven Amazon-Bewertungen (amzn_pros_corp) zu erstellen. Daraus kannst du schnell eine wordcloud() bauen, um zu verstehen, welche Wendungen positiv mit der Arbeit bei Amazon verbunden werden.

Die folgende Funktion nutzt RWeka, um in Zweiergruppen zu tokenisieren, und wird in dieser Übung im Hintergrund verwendet.

tokenizer <- function(x) {
  NGramTokenizer(x, Weka_control(min = 2, max = 2))
}

Diese Übung ist Teil des Kurses

Text Mining mit Bag-of-Words in R

Kurs anzeigen

Anleitung zur Übung

  • Erstelle amzn_p_tdm als TermDocumentMatrix aus amzn_pros_corp. Achte darauf, control = list(tokenize = tokenizer) hinzuzufügen, damit die Terme Bigrams sind.
  • Erstelle amzn_p_tdm_m aus amzn_p_tdm mit der Funktion as.matrix().
  • Erstelle amzn_p_freq, um die Termhäufigkeiten aus amzn_p_tdm_m zu erhalten.
  • Erstelle eine wordcloud() mit names(amzn_p_freq) als Wörtern, amzn_p_freq als deren Häufigkeiten sowie max.words = 25 und color = "blue" für die Darstellung.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create amzn_p_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_p_tdm_m
___ <- ___

# Create amzn_p_freq
___ <- ___

# Plot a word cloud using amzn_p_freq values
___(___)
Code bearbeiten und ausführen