Feature-extractie & analyse: amzn_pros
amzn_pros_corp, amzn_cons_corp, goog_pros_corp en goog_cons_corp zijn allemaal voorbewerkt, dus je kunt nu de features extraheren die je wilt onderzoeken. Omdat je de bag-of-words-methode gebruikt, besluit je een bigram-TermDocumentMatrix te maken voor Amazon's corpus met positieve reviews, amzn_pros_corp. Van daaruit kun je snel een wordcloud() maken om te begrijpen welke uitdrukkingen mensen positief associëren met werken bij Amazon.
De onderstaande functie gebruikt RWeka om twee termen te tokenizen en wordt achter de schermen in deze oefening gebruikt.
tokenizer <- function(x) {
NGramTokenizer(x, Weka_control(min = 2, max = 2))
}
Deze oefening maakt deel uit van de cursus
Text mining met bag-of-words in R
Oefeninstructies
- Maak
amzn_p_tdmals eenTermDocumentMatrixop basis vanamzn_pros_corp. Voeg zekercontrol = list(tokenize = tokenizer)toe zodat de termen bigrammen zijn. - Maak
amzn_p_tdm_mvanamzn_p_tdmmet de functieas.matrix(). - Maak
amzn_p_freqom de termfrequenties uitamzn_p_tdm_mte halen. - Maak een
wordcloud()metnames(amzn_p_freq)als de woorden,amzn_p_freqals hun frequenties, enmax.words = 25encolor = "blue"voor de opmaak.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create amzn_p_tdm
___ <- ___(
___,
___
)
# Create amzn_p_tdm_m
___ <- ___
# Create amzn_p_freq
___ <- ___
# Plot a word cloud using amzn_p_freq values
___(___)