Feature-Extraktion & Analyse: amzn_pros
amzn_pros_corp, amzn_cons_corp, goog_pros_corp und goog_cons_corp wurden bereits vorverarbeitet. Jetzt kannst du die Merkmale extrahieren, die du untersuchen möchtest. Da du den Bag-of-Words-Ansatz verwendest, entscheidest du dich, eine Bigram-TermDocumentMatrix für das Korpus der positiven Amazon-Bewertungen (amzn_pros_corp) zu erstellen. Daraus kannst du schnell eine wordcloud() bauen, um zu verstehen, welche Wendungen positiv mit der Arbeit bei Amazon verbunden werden.
Die folgende Funktion nutzt RWeka, um in Zweiergruppen zu tokenisieren, und wird in dieser Übung im Hintergrund verwendet.
tokenizer <- function(x) {
NGramTokenizer(x, Weka_control(min = 2, max = 2))
}
Diese Übung ist Teil des Kurses
<Kurs>Text Mining mit Bag-of-Words in R</Kurs>Übungsanweisungen
- Erstelle
amzn_p_tdmalsTermDocumentMatrixausamzn_pros_corp. Achte darauf,control = list(tokenize = tokenizer)hinzuzufügen, damit die Terme Bigrams sind. - Erstelle
amzn_p_tdm_mausamzn_p_tdmmit der Funktionas.matrix(). - Erstelle
amzn_p_freq, um die Termhäufigkeiten ausamzn_p_tdm_mzu erhalten. - Erstelle eine
wordcloud()mitnames(amzn_p_freq)als Wörtern,amzn_p_freqals deren Häufigkeiten sowiemax.words = 25undcolor = "blue"für die Darstellung.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Create amzn_p_tdm
___ <- ___(
___,
___
)
# Create amzn_p_tdm_m
___ <- ___
# Create amzn_p_freq
___ <- ___
# Plot a word cloud using amzn_p_freq values
___(___)