Estrazione delle caratteristiche e analisi: amzn_cons

Ora decidi di confrontarlo con il corpus amzn_cons_corp in un altro TDM di bigrammi. Ovviamente ti aspetti di vedere frasi diverse nella tua word cloud.

Userai di nuovo questa funzione personalizzata per estrarre le caratteristiche dei bigrammi per la visualizzazione:

tokenizer <- function(x) 
  NGramTokenizer(x, Weka_control(min = 2, max = 2))

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza corso

Istruzioni dell'esercizio

Crea amzn_c_tdm convertendo amzn_cons_corp in una TermDocumentMatrix e includendo la funzione di bigrammi con control = list(tokenize = tokenizer).
Crea amzn_c_tdm_m come versione matrice di amzn_c_tdm.
Crea amzn_c_freq usando rowSums() per ottenere le frequenze dei termini da amzn_c_tdm_m.
Crea una wordcloud() usando names(amzn_c_freq) e i valori amzn_c_freq. Usa anche gli argomenti max.words = 25 e color = "red".

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create amzn_c_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_c_tdm_m
___ <- ___

# Create amzn_c_freq
___ <- ___

# Plot a word cloud of negative Amazon bigrams
___

Modifica ed esegui il codice