Estrazione delle caratteristiche e analisi: amzn_pros

amzn_pros_corp, amzn_cons_corp, goog_pros_corp e goog_cons_corp sono già stati preprocessati, quindi ora puoi estrarre le caratteristiche che vuoi analizzare. Dato che stai usando l'approccio bag of words, decidi di creare una TermDocumentMatrix di bigrammi per il corpus delle recensioni positive di Amazon, amzn_pros_corp. Da qui, puoi creare rapidamente una wordcloud() per capire quali frasi le persone associano positivamente al lavorare in Amazon.

La funzione qui sotto usa RWeka per tokenizzare in due termini ed è utilizzata dietro le quinte in questo esercizio.

tokenizer <- function(x) {
  NGramTokenizer(x, Weka_control(min = 2, max = 2))
}

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza corso

Istruzioni dell'esercizio

Crea amzn_p_tdm come TermDocumentMatrix a partire da amzn_pros_corp. Assicurati di aggiungere control = list(tokenize = tokenizer) così che i termini siano bigrammi.
Crea amzn_p_tdm_m da amzn_p_tdm usando la funzione as.matrix().
Crea amzn_p_freq per ottenere le frequenze dei termini da amzn_p_tdm_m.
Crea una wordcloud() usando names(amzn_p_freq) come parole, amzn_p_freq come frequenze e, per l'estetica, max.words = 25 e color = "blue".

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create amzn_p_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_p_tdm_m
___ <- ___

# Create amzn_p_freq
___ <- ___

# Plot a word cloud using amzn_p_freq values
___(___)

Modifica ed esegui il codice