Estrazione delle caratteristiche e analisi: amzn_pros
amzn_pros_corp, amzn_cons_corp, goog_pros_corp e goog_cons_corp sono già stati preprocessati, quindi ora puoi estrarre le caratteristiche che vuoi analizzare. Dato che stai usando l'approccio bag of words, decidi di creare una TermDocumentMatrix di bigrammi per il corpus delle recensioni positive di Amazon, amzn_pros_corp. Da qui, puoi creare rapidamente una wordcloud() per capire quali frasi le persone associano positivamente al lavorare in Amazon.
La funzione qui sotto usa RWeka per tokenizzare in due termini ed è utilizzata dietro le quinte in questo esercizio.
tokenizer <- function(x) {
NGramTokenizer(x, Weka_control(min = 2, max = 2))
}
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Istruzioni dell'esercizio
- Crea
amzn_p_tdmcomeTermDocumentMatrixa partire daamzn_pros_corp. Assicurati di aggiungerecontrol = list(tokenize = tokenizer)così che i termini siano bigrammi. - Crea
amzn_p_tdm_mdaamzn_p_tdmusando la funzioneas.matrix(). - Crea
amzn_p_freqper ottenere le frequenze dei termini daamzn_p_tdm_m. - Crea una
wordcloud()usandonames(amzn_p_freq)come parole,amzn_p_freqcome frequenze e, per l'estetica,max.words = 25ecolor = "blue".
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create amzn_p_tdm
___ <- ___(
___,
___
)
# Create amzn_p_tdm_m
___ <- ___
# Create amzn_p_freq
___ <- ___
# Plot a word cloud using amzn_p_freq values
___(___)